자동차 보험사기 탐지 : 데이스쿨 구독자 전용 AI 해커톤

알고리즘 | 정형 | 분류 | 사기 | macro F1

상금 : 인증서 + 데이스쿨
121명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[Private 1위, Public 1위] One-hot&Target&Count 인코딩 + optuna

Reign

2024.07.01 17:36 40 조회 language

안녕하세요. Reign입니다.
제가 구성한 feature, 사용한 방법론은 다음과 같습니다.

<features: 수치형 피처들 + One-hot&Target&Count Encoding 된 명목형 피처들 -> 정규화>
EDA와 간단한 베이스라인 성능을 확인한 결과, 타겟에 큰 영향력을 가지는 피처가 없다는 것을 발견하여 최대한 많은 피처를 구성해주고자 하였습니다.
또한 데이터 수도 많지 않아 메모리에 대한 걱정이 없었습니다. 이에 수치형 피처들은 그대로 둔 체, 명목형 피처들을 다양한 표현으로 구성하였습니다.
*결측치가 발견되어 여러 보간법을 실험했지만 성능향상이 없어 그대로 두었습니다.
*정규화 이후 성능과 학습 속도가 상승하는 것을 관찰하여 정규화를 해주었습니다.

<XGB + optuna>
분류 모델로는 XGB를 선택하였습니다. 그 이유는 여러 모델을 실험한 결과 가장 성능이 높은 모델이 XGB이었기 때문입니다.
또한 하이퍼 파라미터 최적화를 위해 optuna를 사용하였는데, trial을 2000으로 충분한 탐색이 가능하도록 했습니다.
특히나 optuna에서 CrossValidation을 통한 평균 값을 성능 기준으로 두었는데, 이 또한 실험을 통해 가장 좋은 성능 기준임을 확인하였습니다.

결국 "실험에 의한 판단"이 가장 주요했다고 조심스럽게 말씀드리고 싶습니다.
감사합니다.