소득 예측 AI 해커톤

알고리즘 | 정형 | 회귀 | 사회 | RMSE

  • moneyIcon 상금 : 인증서 + 데이스쿨
  • 1,209명 마감

 

[Private 3rd] LGBM + optuna

2024.04.10 00:23 296 조회 language

다른 대회들에 집중하느라 제대로 못했는데 3등이네요..

1. EDA후 Income이 6000이상이면 이상치라고 판단해 해당 행을 제거하였습니다.
2. Industry_Status columns이 not in universe or children인 경우 train data에서 항상 Income이 0이여서 해당 행을 제거하고 predict한 후 0으로 바꿔주었습니다.
3. Age가 14이하, Education_Status가 Children, Employ Status가 Not Working, Occupation_Status가 Unknown인 경우에도 2번처럼 적용하였습니다.
4. train data의 Income columns을 histplot으로 그렸을 때 0~200사이의 데이터가 거의 존재하지 않아 예측값이 150이하인 경우 0으로 변환해주었습니다.
5. 결측치는 dtype가 object인 column에만 존재해서 'NAN'으로 채워주었습니다.
6. 중복행을 제거했습니다.
7.  예측된 Income이 0 미만인 경우 0으로 변환해주었습니다.

코드