분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 7위 0.09953, CatBoost + OOF(Out Of Fold)앙상블
안녕하세요. 데이터를 공부하는 학부생입니다.
대회를 제대로 진행 해 본 것은 이번이 처음이라 실력이 부족한 느낌이 많이 들 수 있는 코드입니다.
처음에는 RandomForest, Gradient Boost, XGBoost, LigthGBM, CatBoost의 모델들을 Optuna를 통해
하이퍼 파라미터를 찾아 교차 검증해 보고, Stacking을 이용해봤지만 대부분 Overfitting이 발생했습니다.
실험해본 단일 모델 중 그나마 CatBoost가 가장 점수가 좋아, 간단한 하이퍼 파라미터로 조정하여 OOF 앙상블을 진행했습니다.
Public에서 44등, Private에서는 7등까지 올라갔습니다.
이번 대회를 통해 다양한 모델들과 기법을 공부했고,
좋은 기법으로 모델을 구현하는 것도 중요하지만 다른 분들의 코드를 보니 EDA를 통해 데이터의 특징과 의미를 얻는 것이 제일 중요하다고 느끼게 됐습니다.
또한 Public과 Private의 등수 차이가 많이 커서 어떠한 이유로 발생했는지 생각 해 보는 시간이 필요할 거 같습니다.
위에서 말했듯 처음에는 여러 모델을 optuna로 최적화를 시켰지만, Public에서 overfitting이 발생했습니다.
catboost 역시 overfit을 피하지는 못했습니다. 하지만 다른 모델들보다는 Public 점수가 잘 나와서 단일 모델을 선택했습니다.
댓글 감사합니다~~
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
단일 모델로 catboost를 사용하신 이유가 따로 있을까요?
단일 모델로도 이렇게 좋은 성능을 낼 수 있다니 신기하네요! 코드 공유 감사합니다~