분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 3th] XGB+ LightGBM + CatBoost(soft voting ensemble)
이번 대회에서 제공된 데이터는 컬럼 수가 많고 데이터 크기도 상당히 커서, 사전에 전처리한 후 모델링 작업을 진행했습니다. 전처리부터 모델링까지의 과정은 PDF 파일과 코드에서 참고하실 수 있습니다.
참고로, seed를 고정했다고는 했지만, 코드 내 일부 함수에서 seed가 고정되지 않는 부분이 존재하는 것같아 score 차이가 미세하게 차이가 발생하는 점 양해 부탁드립니다.
대회에 참가하신 모든 분들, 고생 많으셨습니다.
감사합니다.
[전처리 및 모델링 과정]
1.데이터 병합
2. 단일 값을 가진 컬럼 제거 후 저장.
3. Null 값을 가진 컬럼 제거
4. Label Encoding
5. 클래스 가중치 부여
6. Stratified Group 5-fold 교차검증
7. XGBoost, LightGBM, CatBoost 모델의 소프트 보팅 앙상블 예측
8. 예측 후에 ID별 다수결 집계 후 최종 Label 예측
9. Optuna를 이용한 하이퍼파라미터 최적화 후 성능 개선
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
score의 재현성을 잡는 부분이 가장 힘든거 같아요. 수고 많으셨습니다!