분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 9위 0.78724] TimeSeriesSplit + Catboost + Ensemble
공동작성자
[Summary]
1) Train Data Parquet 변환 작업
- 메모리 2GB 핸들링 가능
2) Train Data UnderSampling 적용
- 1:1 비율로 Class Imbalance 해결
3) 전처리 Null 값 ‘– 1’ 치환
- Unseen 데이터 개념으로 일괄 ‘-1’ 치환
4) Feature Selection 으로 Feature Importance 적용
- Catboost Feature Importance 이용 ➢ 중요도 하위 10개 피처 삭제
5) Object Encoding, Numeric Scaler 적용
- Object Encoding ➢ Catboost Auto Category Encoder 적용
- Numeric Scaler ➢ RobustScaler 적용
6) CV 전략 TimeSeriesSplit CV = 7 적용
- 마지막 전체 데이터 학습 (Validation Data 없이 Train Data Full 이용) ➢ 성능 “급” 상승
7) Catboost Average Ensemble 제출 (Submit)
- 모델 1위 ➢ Public LB : 0.7867984255 모델 2위 ➢ Public LB : 0.7867277523 모델 3위 ➢ Public LB : 0.7866333701
- 최종 모델 Top 3 Average Ensemble 제출
(최종 : Public LB: 0.7871031675, Private LB : 0.78724)
※ 아래 코드는 "모델 1" 대표 코드이며, 최종 submission file 3개를 Average Ensemble 한 결과 Private LB 9위 Score 임 (실험 내용 아래 장표 참조)
[소감]
최대한 로버스트한 모델을 만들기 위해서 노력하였습니다. 시계열 Lag 활용 못한 부분, 메모리 부족으로 Optuna 실패 부분 살짝 아쉬움이 있네요 ㅎㅎ 한달 동안 고생하셨습니다 :)
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved