Debt Default Prediction Hackathon: Spot the Signs of Default!

Dacon Hackathon | Algorithm | Tabular | Classification | Finance | ROC-AUC

  • moneyIcon Prize : DASCHOOL Pro Subscription
  • 2025.02.03 ~ 2025.03.31 09:59 + Google Calendar
  • 1,066 Users Completed

 

[Private 2위] 데이터를 여행하는 '히치하이커'를 위한 안내서, Weight Ensemble🏔️

2025.04.03 01:44 745 Views language

참 간단한 데이터를 너무 복잡하게 바라봤나 하는 마음도 생깁니다.
아직 배워야 할 것들이 너무나도 많은 것 같습니다.

결론부터 말하자면, 코드는 Kaggle의 NVIDA 엔지니어 모임, 
RAPIDS의 Grand Master , Chris Deotte 님의 rainfall binary classification 의 코드를 참고하였습니다. 
(파생변수 생성, 가중 평균 아이디어)
 
https://www.kaggle.com/code/cdeotte/rapids-svc-w-feature-engineering-lb-0-856

가중 평균 앙상블로 평가지표인 ROC-AUC에 대한 '히치하이킹'을 시도한 것이라고 요약해볼 수 있겠습니다.

코드를 디버깅 하는 과정에서 참 독특한 코드들을 많이 발견하여 이 데이터에도 쓰일 수 있을까 고민하면서 코드를 실험했던 것 같습니다.

모델은 Logistic-Regression이 가장 베이스 모델로 적합했기에 먼저 선택했고,
xgboost, knn(p1~p3 거리척도), mlp, stack(cat, rf, xg) 등 여러 모델들을 조합하였습니다. 
다양한 관점에서 데이터를 바라보고자 하는 맘이 컸던 것 같습니다. 때문에 전처리도 다양합니다.

AUC는 예측 확률 간 순서가 중요하기에 과감하게 가중 평균을 이용해보고자 했습니다. 

다들 고생 많으셨습니다! 많은 것들 배워갑니다!

#필요 없는 부분들도 있습니다. 정리를 완벽하게 못했습니다... 감안해서 봐주세요!

Code