분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 2위, MLP, Baseline+CV+under-sampling+pseudo-labeling
1. 총 18개의 feature 사용
: age(1), respiratory_condition(1), fever_or_muscle_pain(1), MFCC 2~13(12), one-hot encoding 된 gender(3)
2. 5-fold CV -> Ensemble(확률값 평균) -> threshold 로 0, 1 예측하는 방법을 사용, 각 fold 내에서는 아래 2단계 반복
[1단계]
- MinMaxScaling
- Under-sampling으로 10개 샘플 추출 후 10개 모델 학습
- unlabeled 데이터를 10개 모델로 추론 후 확률값을 평균
- threshold(=0.75)이상인 데이터는 1로, 미만인 데이터는 0으로 pseudo-labeling
[2단계]
- train 데이터에 pseudo-labeling 된 데이터를 추가하여 1단계에서 진행한 과정 반복
- test 데이터를 10개 모델로 추론 후 확률값을 평균
- threshold(=0.80)이상인 데이터는 1로, 미만인 데이터는 0으로 최종 예측
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved