월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회

[Private 4위 0.66003] 초보산님 | XGBoost, LightGBM

2021.05.25 07:54 4,170 조회 language

첫 대회였는데 운좋게도 4위를 기록하게 되어 영광 입니다. 대회를 개최해준 데이콘에 감사의 말씀을 드립니다.

다른 분들은 그렇지 않으시겠지만 제 solution은 굉장히 비효율적입니다. 애초에 엄청나게 많은 feature들을 생성한 후 feature selection을 시도해보았지만 feature를 줄이면 줄일수록 모델 성능이 나빠졌습니다. 제가 시도했던 feature selection은

1. Feature Importance 0 제외
2. Variance Threshold 0.1 미만 제외
3. correlation 0.95 이상 제외

등등 이었습니다만.. 그 어느것하나 뚜렷한 성과를 보이지 못하다보니 그냥 무식하게 큰 모델을 만들고 말았습니다.
결국 어느 정도 이상 점수가 오르지 않아 마지막에는 cv 20을 해버렸고... 그러니 점수가 좀 오르네요? ;;;

부족한 코드지만 조금이나마 다른 분들께 도움이 되길 바랍니다. 감사합니다.

코드
로그인이 필요합니다
0 / 1000
data_jun
2021.05.28 09:33

굉장히 비효율적이라 하신건 겸손이신 것 같습니다. 멋지네요. ^^*
그런데 Label인코딩 때 train, test 데이타를 묶어서 fit_transform을 하시면, data leakage가 발생할 것 같은데...
혹시 fit, transform 따로 해도 동일한 결과가 나오나요 ?

초보산님
2021.05.28 17:03

말씀해주신 Labelencoding은 baseline 모델 만들때 코딩해놓고 그 이후로는 아예 신경을 못썼네요..
저도 한번 테스트를 해봐야겠습니다. 좋은 의견 주셔서 감사합니다!

아침달팽이
2021.05.28 17:33

잘 보고 갑니다. 멋지네요. ^^

초보산님
2021.05.29 10:13

감사합니다!