의류 제조 회사 생산성 예측 AI 해커톤

알고리즘 | 정형 | 회귀 | 산업 | NMAE

  • moneyIcon 상금 : 인증서
  • 128명 마감

 

Private_3위 Xgboost + Optuna

2022.10.31 14:56 2,062 조회 language

다들  고생하셨습니다. 

연속형 변수들에 대해서 여러가지 범주화 시도들을 해봤는데 모두 성능이 안좋게 나오더라고요..
지금까지는  그대로 사용한것이 가장 좋았던것 같습니다.

Xgboost를 Optuna를 활용하여 튜닝하였습니다. 
마지막 예측에는 KFold를  활용하여 10개의 폴드별 예측값을 평균내어 사용하였습니다. 

실력이 많이 부족하지만 올려봅니다. 감사합니다 

코드
로그인이 필요합니다
0 / 1000
easymean0417
2022.11.10 10:52

안녕하세요!

'targeted_productivity'에 대한 전처리를 진행하실 때 train 셋의 전처리 과정과는 달리 test 셋의 값을 보고  test['targeted_productivity'].round(2) 해주신 것은 data leakage에 해당한다고 생각합니다.

또한, test.loc[test['incentive'] > 100,'incentive'] = 960와 같이 test 셋의 값을 확인한 후, train과 다르게 전처리 하는 방식도 위와 같은 data leakage에 해당한다고 생각합니다.
train 셋의 값을 보고 960이라는 값으로 묶을 수 있다고 판단한 것이 아닌, 오직 test 셋의 값을 보고 960으로 묶을 수 있다고 판단했기 때문입니다.

모든 전처리 과정은 test 셋을 볼 수 없다는 가정 하에 이루어져야 한다고 알고 있습니다.
감사합니다.