분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 3rd] LGBM + optuna
다른 대회들에 집중하느라 제대로 못했는데 3등이네요..
1. EDA후 Income이 6000이상이면 이상치라고 판단해 해당 행을 제거하였습니다.
2. Industry_Status columns이 not in universe or children인 경우 train data에서 항상 Income이 0이여서 해당 행을 제거하고 predict한 후 0으로 바꿔주었습니다.
3. Age가 14이하, Education_Status가 Children, Employ Status가 Not Working, Occupation_Status가 Unknown인 경우에도 2번처럼 적용하였습니다.
4. train data의 Income columns을 histplot으로 그렸을 때 0~200사이의 데이터가 거의 존재하지 않아 예측값이 150이하인 경우 0으로 변환해주었습니다.
5. 결측치는 dtype가 object인 column에만 존재해서 'NAN'으로 채워주었습니다.
6. 중복행을 제거했습니다.
7. 예측된 Income이 0 미만인 경우 0으로 변환해주었습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved