분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 16위 0.85958] | Saturday.K | baseline 변형
Dacon에서 제공한 베이스라인에서 조금 변형해서 모델을 만들었습니다.
1. CountVectorizer 대신 TfidfVectorizer 사용
2. RandomForestClassifier 모델 3개 학습
데이터 개수가 많은 Level 0과 Level 1은 두개 그룹으로 분류하는게 더 정확할거라 예상하여 총 3개의 모델을 생성함
- 첫 번째 모델 : Level 0~6을 7 개 그룹으로 분류하여 학습
- 두 번째 모델 : Level 0과 나머지를 2개 그룹으로 분류하여 학습
- 셋 번쨰 모델 : Level 1과 나머지를 3개 그룹으로 분류하여 학습
3. Level 7 예측 방법
- 첫 번째 모델을 이용해 분류 후 예측확률이 Threshold를 넘지 않으면 Level 7으로 분류
- 첫번쨰 모델에서 Level 7로 분류된 데이터 중 두 번째 모델로 Threshold 이상 Level 0로 예측되는 데이터는 다시 Level 0으로 분류
- 첫번쨰 모델에서 Level 7로 분류된 데이터 중 세 번째 모델로 Threshold 이상 Level 1로 예측되는 데이터는 다시 Level 1로 분류
ps. Threshold 결정은 특별한 방법 없이 public 점수를 확인하면서 조정했습니다.
LGBM, XGB, ExtraTree Classifier 등을 시험해보았지만 첫 번째 분류는 대부분 준수하게 할 수 있지만 Level 7을 예측해낼
좋은 방법을 찾지 못해 결국 최종적으로 베이스라인과 같은 방법을 사용했습니다. 상위권 입상자 분들의 코드를 보고 많이 배우겠습니다. 모두 수고하셨습니다~
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
수고하셨습니다~ Saturday.K님