고객 대출등급 분류 AI 해커톤

알고리즘 | 정형 | 분류 | 금융 | Macro F1 Score

  • moneyIcon 상금 : 인증서
  • 1,665명 마감

 

[Private 6위] RandomForest + StratifiedKFold

2024.02.06 11:56 671 조회 language

EDA로는 A,B,C가 차지하는 범위가 컸고, 주택소유상태에는 'ANY'가 있었고, 연간소득 금액이 0원인 행을 발견하고 제거하였습니다.
또한 금융 데이터라서 관련 있는 피처끼리 사칙연산으로 무작정 피처 개수를 늘리는데 신경을 썼습니다. 
그러다가 점수가 오르지 않아서 Feature importance로 제일 점수 낮은 피처부터 차츰 정리했습니다.
맨 처음 시도했던 'ANY', 연간소득 0 값의 데이터도 포함하는 게 좋겠다고 생각되어 제거하지 않는 방향으로 다시 바꿨습니다.
마지막으로 Optuna와 제일 점수 높은 Seed를 골라 StratifiedKFold - 10으로 마무리 하였습니다.
Optuna 같은 경우는 depth와 estimator 만으로 하다가 시간이 너무 오래걸려서 depth만 놓고 돌렸습니다.

코드
로그인이 필요합니다
0 / 1000
드르렁
2024.02.07 18:31

코드 잘 봤습니다~
다만, 궁금한 점이 생겨 댓글 남깁니다.

코드 상으로는 KFold로 데이터를 쪼개서 학습한 뒤에 바로 Test데이터에 적용한 것으로 보이는데,
혹시 전체 데이터가 아닌 일부 데이터만 학습한게 맞을까요?

와샌즈
2024.02.07 18:56

네 의도적인건 아니고 그냥 평균점수 보려고 kfold 사용했습니다. 적당한 점수가 나와서 수정하지 않고 제출했습니다. 1위 축하드립니다.

드르렁
2024.02.07 19:04

넵 감사합니다!