분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private_3위 Xgboost + Optuna
다들 고생하셨습니다.
연속형 변수들에 대해서 여러가지 범주화 시도들을 해봤는데 모두 성능이 안좋게 나오더라고요..
지금까지는 그대로 사용한것이 가장 좋았던것 같습니다.
Xgboost를 Optuna를 활용하여 튜닝하였습니다.
마지막 예측에는 KFold를 활용하여 10개의 폴드별 예측값을 평균내어 사용하였습니다.
실력이 많이 부족하지만 올려봅니다. 감사합니다
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요!
'targeted_productivity'에 대한 전처리를 진행하실 때 train 셋의 전처리 과정과는 달리 test 셋의 값을 보고 test['targeted_productivity'].round(2) 해주신 것은 data leakage에 해당한다고 생각합니다.
또한, test.loc[test['incentive'] > 100,'incentive'] = 960와 같이 test 셋의 값을 확인한 후, train과 다르게 전처리 하는 방식도 위와 같은 data leakage에 해당한다고 생각합니다.
train 셋의 값을 보고 960이라는 값으로 묶을 수 있다고 판단한 것이 아닌, 오직 test 셋의 값을 보고 960으로 묶을 수 있다고 판단했기 때문입니다.
모든 전처리 과정은 test 셋을 볼 수 없다는 가정 하에 이루어져야 한다고 알고 있습니다.
감사합니다.