분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 2위] 데이터를 여행하는 '히치하이커'를 위한 안내서, Weight Ensemble🏔️
참 간단한 데이터를 너무 복잡하게 바라봤나 하는 마음도 생깁니다.
아직 배워야 할 것들이 너무나도 많은 것 같습니다.
결론부터 말하자면, 코드는 Kaggle의 NVIDA 엔지니어 모임,
RAPIDS의 Grand Master , Chris Deotte 님의 rainfall binary classification 의 코드를 참고하였습니다.
(파생변수 생성, 가중 평균 아이디어)
https://www.kaggle.com/code/cdeotte/rapids-svc-w-feature-engineering-lb-0-856
가중 평균 앙상블로 평가지표인 ROC-AUC에 대한 '히치하이킹'을 시도한 것이라고 요약해볼 수 있겠습니다.
코드를 디버깅 하는 과정에서 참 독특한 코드들을 많이 발견하여 이 데이터에도 쓰일 수 있을까 고민하면서 코드를 실험했던 것 같습니다.
모델은 Logistic-Regression이 가장 베이스 모델로 적합했기에 먼저 선택했고,
xgboost, knn(p1~p3 거리척도), mlp, stack(cat, rf, xg) 등 여러 모델들을 조합하였습니다.
다양한 관점에서 데이터를 바라보고자 하는 맘이 컸던 것 같습니다. 때문에 전처리도 다양합니다.
AUC는 예측 확률 간 순서가 중요하기에 과감하게 가중 평균을 이용해보고자 했습니다.
다들 고생 많으셨습니다! 많은 것들 배워갑니다!
#필요 없는 부분들도 있습니다. 정리를 완벽하게 못했습니다... 감안해서 봐주세요!
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved