의류 제조 공정 Productivity Prediction AI Hackathon

Algorithm | Structured | Regression | Industry | NMAE

Certification
155 Users Completed

Practice

Overview Data Code (share) Talk Leaderboard

Submission

Private_3위 Xgboost + Optuna

Mile

2022.10.31 14:56 5,103 Views language

다들  고생하셨습니다.

연속형 변수들에 대해서 여러가지 범주화 시도들을 해봤는데 모두 성능이 안좋게 나오더라고요..
지금까지는  그대로 사용한것이 가장 좋았던것 같습니다.

Xgboost를 Optuna를 활용하여 튜닝하였습니다.
마지막 예측에는 KFold를  활용하여 10개의 폴드별 예측값을 평균내어 사용하였습니다.

실력이 많이 부족하지만 올려봅니다. 감사합니다

Code

1 Comments

comment

0 / 1000

easymean0417

2022.11.10 10:52

안녕하세요!

'targeted_productivity'에 대한 전처리를 진행하실 때 train 셋의 전처리 과정과는 달리 test 셋의 값을 보고 test['targeted_productivity'].round(2) 해주신 것은 data leakage에 해당한다고 생각합니다.

또한, test.loc[test['incentive'] > 100,'incentive'] = 960와 같이 test 셋의 값을 확인한 후, train과 다르게 전처리 하는 방식도 위와 같은 data leakage에 해당한다고 생각합니다.
train 셋의 값을 보고 960이라는 값으로 묶을 수 있다고 판단한 것이 아닌, 오직 test 셋의 값을 보고 960으로 묶을 수 있다고 판단했기 때문입니다.

모든 전처리 과정은 test 셋을 볼 수 없다는 가정 하에 이루어져야 한다고 알고 있습니다.
감사합니다.

📣 The comment input field has been moved to the top of the comment list!

List

Private 1위(0.18216) LGBM+RIDGE+BR+GBR (EDIT)

Competition - 의류 제조 회사 생산성 예측 AI 해커톤

Current

Private_3위 Xgboost + Optuna

Competition - 의류 제조 회사 생산성 예측 AI 해커톤

Likes 6