분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회
[Private 4위 0.66003] 초보산님 | XGBoost, LightGBM
첫 대회였는데 운좋게도 4위를 기록하게 되어 영광 입니다. 대회를 개최해준 데이콘에 감사의 말씀을 드립니다.
다른 분들은 그렇지 않으시겠지만 제 solution은 굉장히 비효율적입니다. 애초에 엄청나게 많은 feature들을 생성한 후 feature selection을 시도해보았지만 feature를 줄이면 줄일수록 모델 성능이 나빠졌습니다. 제가 시도했던 feature selection은
1. Feature Importance 0 제외
2. Variance Threshold 0.1 미만 제외
3. correlation 0.95 이상 제외
등등 이었습니다만.. 그 어느것하나 뚜렷한 성과를 보이지 못하다보니 그냥 무식하게 큰 모델을 만들고 말았습니다.
결국 어느 정도 이상 점수가 오르지 않아 마지막에는 cv 20을 해버렸고... 그러니 점수가 좀 오르네요? ;;;
부족한 코드지만 조금이나마 다른 분들께 도움이 되길 바랍니다. 감사합니다.
말씀해주신 Labelencoding은 baseline 모델 만들때 코딩해놓고 그 이후로는 아예 신경을 못썼네요..
저도 한번 테스트를 해봐야겠습니다. 좋은 의견 주셔서 감사합니다!
잘 보고 갑니다. 멋지네요. ^^
감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
굉장히 비효율적이라 하신건 겸손이신 것 같습니다. 멋지네요. ^^*
그런데 Label인코딩 때 train, test 데이타를 묶어서 fit_transform을 하시면, data leakage가 발생할 것 같은데...
혹시 fit, transform 따로 해도 동일한 결과가 나오나요 ?