자동차 보험사기 탐지 : 데이스쿨 구독자 전용 AI 해커톤

알고리즘 | 정형 | 분류 | 사기 | macro F1

  • moneyIcon 상금 : 인증서 + 데이스쿨
  • 121명 마감

 

[Private 2위, Public 3위] Catboost + optuna

2024.07.02 14:37 28 조회 language

안녕하세요. 도토입니다.
제가 구성한 방법론은 다음과 같습니다.

1. 결측치는 중앙값으로 대체했습니다.
2. 범주형 변수들에 대해 사기율을 분석했고 사기율이 높은 것을 0, 낮은 것을 1으로 재구성하여 모든 범주형 변수를 합한 'en_total' 파생변수를 생성했습니다. fraud와 상관관계가 가장 높았으며 성능 또한 향상된 것을 확인했습니다.
3. 본 데이터는 object형 변수가 다수 존재해 catboost의 cat_features 파라미터를 활용하면 좋을 것이라 생각이 들어 catboost 모델을 선정했습니다. 또한, 불균형 클래스임을 감안하여 class_weight를 설정했습니다.
4. Optuna를 통해 하이퍼파리미터 최적화를 진행했습니다.
5. 예측 확률 임곗값 조정으로 후처리를 진행했습니다. 그 결과, 성능이 약 10% 향상되었습니다.

감사합니다!

코드
이전 글
이전 글이 존재하지 않습니다.
현재 글
[Private 2위, Public 3위] Catboost + optuna
대회 - 자동차 보험사기 탐지 : 데이스쿨 구독자 전용 AI 해커톤
좋아요 4
조회 28
댓글 0
2일 전
다음 글
[Private 1위, Public 1위] One-hot&Target&Count 인코딩 + optuna
대회 - 자동차 보험사기 탐지 : 데이스쿨 구독자 전용 AI 해커톤
좋아요 8
조회 41
댓글 0
3일 전