Car Insurance Fraud Detection

Algorithm | Tabular | Classification | Fraud | macro F1

Prize : 인증서 + 데이스쿨
165 Users Completed

Practice

Overview Data Code (share) Talk Leaderboard

Submission

[Private 3위] LGBM + XGB SoftVoting 기법 활용

세준파파

2024.07.01 11:19 1,913 Views language

안녕하세요. 해커톤 대회를 주최해주신 데이콘 관계자 여러분께 감사드립니다.

작업은 Google Colab에서 수행했고, LGBM, XGB, CatBoost 모델을 각각 튜닝(각각의 모델은 사전에 RandomizedSearchCV로 튜닝)한 후 이를 조합하여 SoftVoting한 결과 가장 좋은 성능을 보인 모델을 최종 선택했습니다. 다음은 제가 이용한 분석 방법을 순서대로 요약한 것입니다.

1. claim_est_payout, age_of_vehicle 변수 결측치를 중앙값으로 대체했습니다.
2. age_of_driver가 1이거나, annual_income가 -1.01인 경우 outlier로 판단해 중앙값으로 대체했습니다.
3. 변수들을 수치형과 범주형으로 분류했고, 수치형은 크루스칼 검정, 범주형은 카이제곱 검정을 통해 유의미한 변수만 선택했습니다.
4. 다중공선성 및 상관계수가 커지지 않는 선에서 claim_vehicle 파생 변수를 생성했습니다.
train['claim_vehicle'] = train['past_num_of_claims'] / train['age_of_vehicle']
test['claim_vehicle'] = test['past_num_of_claims'] / test['age_of_vehicle']
5. OptimalBinning 결과에 따라 marital_status의 Unknown을 Married로 변경, witness_present_ind의 Unknown을 Witness로 변경했습니다.
6. 범주형 변수를 TargetEncoder를 사용해 인코딩하였습니다.
7. SoftVoting을 이용해 모델을 만들고, StratifiedKFold를 이용해 모델을 학습하고 예측했습니다.
weigh 2:1일 때가 성능이 가장 좋았고,
k=10으로 설정했을 때 나온 결과를 바탕으로 평균을 구했을 때 0.52를 초과하면 1, 아니면 0으로 예측해 최종 결과를 제출했습니다.

읽어주셔서 감사합니다.