대구 교통사고 피해 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 교통 | RMSLE | 정성평가

  • moneyIcon 상금 : 1,000만원
  • 2,274명 마감

 

[데이터 전처리 code] train + 기타 데이터

2023.12.04 19:20 1,100 조회 language

train 데이터 있는 칼럼들뿐만 아니라 제공되는 기타 데이터들도 합친 데이터 전처리 코드를 작성했습니다. 
사용할 수 있는 정보가 많을 수록 예측력이 좋아질 거라 예상했는데 생각보다 좋은 결과가 나오지 않네요 🥺

전처리하면서 무조건 사용할 수 있는 정보가 많다고 좋은 건 아닐 수도 있구나 하고 깨달았습니다 🥲

코드
로그인이 필요합니다
0 / 1000
EISLab_이희원
2023.12.05 00:34

ML에서는 feature 수가 많을수록 '차원의 저주'에 빠질 가능성이 높아집니다.
모델의 복잡성을 줄이기 위해 다른 방법이 필요합니다.

mzkoongya
2023.12.05 09:55

네, 맞습니다 ! PCA도 적용해봤는데 성능이 그닥 좋지 않아서... 
아예 변수의 개수를 줄여서 다시 돌려볼까 생각중입니다 🙃