분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 3위] LGBM + XGB SoftVoting 기법 활용
안녕하세요. 해커톤 대회를 주최해주신 데이콘 관계자 여러분께 감사드립니다.
작업은 Google Colab에서 수행했고, LGBM, XGB, CatBoost 모델을 각각 튜닝(각각의 모델은 사전에 RandomizedSearchCV로 튜닝)한 후 이를 조합하여 SoftVoting한 결과 가장 좋은 성능을 보인 모델을 최종 선택했습니다. 다음은 제가 이용한 분석 방법을 순서대로 요약한 것입니다.
1. claim_est_payout, age_of_vehicle 변수 결측치를 중앙값으로 대체했습니다.
2. age_of_driver가 1이거나, annual_income가 -1.01인 경우 outlier로 판단해 중앙값으로 대체했습니다.
3. 변수들을 수치형과 범주형으로 분류했고, 수치형은 크루스칼 검정, 범주형은 카이제곱 검정을 통해 유의미한 변수만 선택했습니다.
4. 다중공선성 및 상관계수가 커지지 않는 선에서 claim_vehicle 파생 변수를 생성했습니다.
train['claim_vehicle'] = train['past_num_of_claims'] / train['age_of_vehicle']
test['claim_vehicle'] = test['past_num_of_claims'] / test['age_of_vehicle']
5. OptimalBinning 결과에 따라 marital_status의 Unknown을 Married로 변경, witness_present_ind의 Unknown을 Witness로 변경했습니다.
6. 범주형 변수를 TargetEncoder를 사용해 인코딩하였습니다.
7. SoftVoting을 이용해 모델을 만들고, StratifiedKFold를 이용해 모델을 학습하고 예측했습니다.
weigh 2:1일 때가 성능이 가장 좋았고,
k=10으로 설정했을 때 나온 결과를 바탕으로 평균을 구했을 때 0.52를 초과하면 1, 아니면 0으로 예측해 최종 결과를 제출했습니다.
읽어주셔서 감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved