분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 2위, Public 3위] Catboost + optuna
안녕하세요. 도토입니다.
제가 구성한 방법론은 다음과 같습니다.
1. 결측치는 중앙값으로 대체했습니다.
2. 범주형 변수들에 대해 사기율을 분석했고 사기율이 높은 것을 0, 낮은 것을 1으로 재구성하여 모든 범주형 변수를 합한 'en_total' 파생변수를 생성했습니다. fraud와 상관관계가 가장 높았으며 성능 또한 향상된 것을 확인했습니다.
3. 본 데이터는 object형 변수가 다수 존재해 catboost의 cat_features 파라미터를 활용하면 좋을 것이라 생각이 들어 catboost 모델을 선정했습니다. 또한, 불균형 클래스임을 감안하여 class_weight를 설정했습니다.
4. Optuna를 통해 하이퍼파리미터 최적화를 진행했습니다.
5. 예측 확률 임곗값 조정으로 후처리를 진행했습니다. 그 결과, 성능이 약 10% 향상되었습니다.
감사합니다!
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved