고객 대출등급 분류 AI 해커톤

알고리즘 | 정형 | 분류 | 금융 | Macro F1 Score

  • moneyIcon 상금 : 인증서
  • 1,665명 마감

 

[Private 5위] XGBoost, 이상치 처리

2024.02.08 17:06 679 조회 language

여러 시도를 해보았지만 자체적으로 정의한 validation set 에서는 성능향상을 이끌었지만 리더보드 상 성능 향상이 잘 맞지 않았던 것을 보아하니 저는 validation set 구축에 조금 더 신경을 써야했을 듯 합니다. 
또한 도메인에 기반한 데이터 분석을 충분히 하지 못해 아쉽네요.

대회 참여하신 모든 분들 수고 많으셨고 코드 공유해주신분들 덕분에 많이 배우고 있습니다.

### 시도했으나 잘 되지 않았던 점
- EDA 를 통해 범주형 변수 및 각종 통계량을 활용한 피처 엔지니어링을 시도했으나 성능 향상을 보인 변수는 몇가지 없었습니다.
- Soft/Hard Voting 방식의 앙상블을 시도했지만 단일 모델(XGBoost) 보다 좋은 성능을 보이지 못했습니다.
- Random / SMOTE / ADAYSN 기반의 리샘플링 알고리즘을 통해 불균형을 해결하려 했지만 성능이 좋지 못했습니다.
- XGBoost 의 학습 시 class weight 을 조절하여 불균형을 해결하려 했지만 성능이 좋지 못했습니다.
- Optuna 를 활용한 하이퍼파라미터 튜닝을 진행했으나 성능이 좋지 못했습니다.

### 유의미한 성능 향상을 이끈 점
- EDA + 통계 검정 등을 통한 데이터 전처리(극단값, 특이값 처리 등)를 통해 성능 향상을 이끌어냈습니다.
- Permutation Imporatnce / Shap Value 를 기반으로 한 변수 중요도를 통해  유의미한 파생변수를 생성해냈습니다.
- 왜도 / 첨도가 매우 큰 변수들에 대해 로그 변환을 통해 성능 향상을 이끌어냈습니다.
- 여러 모델에 대한 실험을 통해 XGBoost 가 다른 모델에 비해 높은 성능을 보였습니다.

코드
로그인이 필요합니다
0 / 1000
드르렁
2024.02.08 17:50

이상치 처리 부분 인상적이네요! 잘 봤습니다👍

렉돌
2024.02.08 17:52

코드 공유해주셔서 감사했습니다!
우승 축하드립니다 ~!