집값 예측 AI해커톤

정형 | NMAE

  • moneyIcon Prize : 참가시 최소 50 XP, 특별상 데이콘 후드
  • 693명 마감

 

Private 7위 0.09953, CatBoost + OOF(Out Of Fold)앙상블

2022.02.04 21:54 1,957 Views language

안녕하세요. 데이터를 공부하는 학부생입니다.
대회를 제대로 진행 해 본 것은 이번이 처음이라 실력이 부족한 느낌이 많이 들 수 있는 코드입니다.
처음에는 RandomForest, Gradient Boost, XGBoost, LigthGBM, CatBoost의 모델들을 Optuna를 통해 
하이퍼 파라미터를 찾아 교차 검증해 보고, Stacking을 이용해봤지만 대부분 Overfitting이 발생했습니다.
실험해본 단일 모델 중 그나마 CatBoost가 가장 점수가 좋아, 간단한 하이퍼 파라미터로 조정하여 OOF 앙상블을 진행했습니다.
Public에서 44등, Private에서는 7등까지 올라갔습니다.
이번 대회를 통해 다양한 모델들과 기법을 공부했고, 
좋은 기법으로 모델을 구현하는 것도 중요하지만 다른 분들의 코드를 보니 EDA를 통해 데이터의 특징과 의미를 얻는 것이 제일 중요하다고 느끼게 됐습니다.
또한 Public과 Private의 등수 차이가 많이 커서 어떠한 이유로 발생했는지 생각 해 보는 시간이 필요할 거 같습니다.

Code
로그인이 필요합니다
0 / 1000
동화책
2022.02.05 17:34

단일 모델로 catboost를 사용하신 이유가 따로 있을까요? 
단일 모델로도 이렇게 좋은 성능을 낼 수 있다니 신기하네요! 코드 공유 감사합니다~

콥콥이
2022.02.05 21:59

위에서 말했듯 처음에는 여러 모델을 optuna로 최적화를 시켰지만, Public에서 overfitting이 발생했습니다.
catboost 역시 overfit을 피하지는 못했습니다. 하지만 다른 모델들보다는 Public 점수가 잘 나와서 단일 모델을 선택했습니다.
댓글 감사합니다~~