분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
feature engineering + xgboost
EDA 코드는 하다보니 복잡해져서 Feature Engineering이랑 xgboost 학습시킨 것과는 별개 파일로 만들어서 빠져있습니다.
금액과 같은 너무 큰 변수들은 log10을 씌워줬고, 범주형 데이터도 최대한 처리했습니다.
근로기간은 3년 이상인 경우에 대부분 비슷한 경향을 보여서 전부 3년으로 처리해줬고, 아래와 같은 3가지 가설에 따라 feature를 추가해보았습니다.
1. 상환 비율: 빌린 돈 중에 지금까지 얼마나 갚았는지에 대한 비율. 이 비율이 높은 사람들이 대출등급이 높지 않을까?
2. 대출 금액 대비 소득 비율: 소득이 많은 사람이 대출을 조금 하려고 했다면 더 쉽게 빌려주지 않았을까? 이 비율이 높은 사람들이 대출 등급이 높지 않을까?
3. 상환원금 대비 이자 비율: 대출 등급이 높은 사람들은 이자를 갚으면서도 원금을 착실하게 갚았을 것이고, 대출 등급이 낮은 사람들은 원금은 커녕 이자를 갚는데도 힘들어 하지 않을까? 즉, 지금까지 상환한 총 원금 대비 상환한 총 이자 비율이 높을 수록 대출 등급이 낮지 않을까?
그 중에서 feature importance를 찍어본 결과 '상환 비율'과 '상환원금 대비 이자 비율'이 높았어요.
이후에는 randomized search cv로 좋은 hyperparameter찾아서 제출했습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved