분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 2위, MLP, Baseline+CV+under-sampling+pseudo-labeling
1. 총 18개의 feature 사용
: age(1), respiratory_condition(1), fever_or_muscle_pain(1), MFCC 2~13(12), one-hot encoding 된 gender(3)
2. 5-fold CV -> Ensemble(확률값 평균) -> threshold 로 0, 1 예측하는 방법을 사용, 각 fold 내에서는 아래 2단계 반복
[1단계]
- MinMaxScaling
- Under-sampling으로 10개 샘플 추출 후 10개 모델 학습
- unlabeled 데이터를 10개 모델로 추론 후 확률값을 평균
- threshold(=0.75)이상인 데이터는 1로, 미만인 데이터는 0으로 pseudo-labeling
[2단계]
- train 데이터에 pseudo-labeling 된 데이터를 추가하여 1단계에서 진행한 과정 반복
- test 데이터를 10개 모델로 추론 후 확률값을 평균
- threshold(=0.80)이상인 데이터는 1로, 미만인 데이터는 0으로 최종 예측
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved