의류 제조 회사 생산성 예측 AI 해커톤

알고리즘 | 정형 | 회귀 | 산업 | NMAE

상금 : 인증서
2022.10.17 ~ 2022.10.31 09:59 + Google Calendar
149명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

Private_3위 Xgboost + Optuna

Mile

2022.10.31 14:56 3,784 조회 language

다들  고생하셨습니다.

연속형 변수들에 대해서 여러가지 범주화 시도들을 해봤는데 모두 성능이 안좋게 나오더라고요..
지금까지는  그대로 사용한것이 가장 좋았던것 같습니다.

Xgboost를 Optuna를 활용하여 튜닝하였습니다.
마지막 예측에는 KFold를  활용하여 10개의 폴드별 예측값을 평균내어 사용하였습니다.

실력이 많이 부족하지만 올려봅니다. 감사합니다

코드

댓글 1개

로그인이 필요합니다

comment

0 / 1000

easymean0417

2022.11.10 10:52

안녕하세요!

'targeted_productivity'에 대한 전처리를 진행하실 때 train 셋의 전처리 과정과는 달리 test 셋의 값을 보고 test['targeted_productivity'].round(2) 해주신 것은 data leakage에 해당한다고 생각합니다.

또한, test.loc[test['incentive'] > 100,'incentive'] = 960와 같이 test 셋의 값을 확인한 후, train과 다르게 전처리 하는 방식도 위와 같은 data leakage에 해당한다고 생각합니다.
train 셋의 값을 보고 960이라는 값으로 묶을 수 있다고 판단한 것이 아닌, 오직 test 셋의 값을 보고 960으로 묶을 수 있다고 판단했기 때문입니다.

모든 전처리 과정은 test 셋을 볼 수 없다는 가정 하에 이루어져야 한다고 알고 있습니다.
감사합니다.

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!

목록으로

Private 1위(0.18216) LGBM+RIDGE+BR+GBR (EDIT)

대회 - 의류 제조 회사 생산성 예측 AI 해커톤

3년 전

현재 글

Private_3위 Xgboost + Optuna

대회 - 의류 제조 회사 생산성 예측 AI 해커톤

3년 전

Private_6위_XGBOOST_모델

대회 - 의류 제조 회사 생산성 예측 AI 해커톤

3년 전