고객 대출등급 분류 AI 해커톤

알고리즘 | 정형 | 분류 | 금융 | Macro F1 Score

 

feature engineering + xgboost

2024.02.05 21:16 1,823 조회 language

EDA 코드는 하다보니 복잡해져서 Feature Engineering이랑 xgboost 학습시킨 것과는 별개 파일로 만들어서 빠져있습니다.
금액과 같은 너무 큰 변수들은 log10을 씌워줬고, 범주형 데이터도 최대한 처리했습니다.
근로기간은 3년 이상인 경우에 대부분 비슷한 경향을 보여서 전부 3년으로 처리해줬고, 아래와 같은 3가지 가설에 따라 feature를 추가해보았습니다.

1. 상환 비율: 빌린 돈 중에 지금까지 얼마나 갚았는지에 대한 비율. 이 비율이 높은 사람들이 대출등급이 높지 않을까?
2. 대출 금액 대비 소득 비율: 소득이 많은 사람이 대출을 조금 하려고 했다면 더 쉽게 빌려주지 않았을까? 이 비율이 높은 사람들이 대출 등급이 높지 않을까?
3. 상환원금 대비 이자 비율: 대출 등급이 높은 사람들은 이자를 갚으면서도 원금을 착실하게 갚았을 것이고, 대출 등급이 낮은 사람들은 원금은 커녕 이자를 갚는데도 힘들어 하지 않을까? 즉, 지금까지 상환한 총 원금 대비 상환한 총 이자 비율이 높을 수록 대출 등급이 낮지 않을까?

그 중에서 feature importance를 찍어본 결과 '상환 비율'과 '상환원금 대비 이자 비율'이 높았어요.

이후에는 randomized search cv로 좋은 hyperparameter찾아서 제출했습니다.

코드