월간 데이콘 음향 데이터 COVID-19 검출 AI 경진대회

알고리즘 | Audio | 분류 | 검출 | Macro f1 score

  • moneyIcon 상금 : 100만원 + ɑ
  • 698명 마감

 

Private 2위, MLP, Baseline+CV+under-sampling+pseudo-labeling

공동작성자

stroke
2022.07.11 23:50 2,674 조회 language

1. 총 18개의 feature 사용
: age(1),  respiratory_condition(1),  fever_or_muscle_pain(1),  MFCC 2~13(12),  one-hot encoding 된 gender(3)

2. 5-fold CV -> Ensemble(확률값 평균) -> threshold 로 0, 1 예측하는 방법을 사용, 각 fold 내에서는 아래 2단계 반복

[1단계]
- MinMaxScaling 
- Under-sampling으로 10개 샘플 추출 후 10개 모델 학습
- unlabeled 데이터를 10개 모델로 추론 후 확률값을 평균
- threshold(=0.75)이상인 데이터는 1로, 미만인 데이터는 0으로  pseudo-labeling

[2단계]
- train 데이터에 pseudo-labeling 된 데이터를 추가하여 1단계에서 진행한 과정 반복
- test 데이터를 10개 모델로 추론 후 확률값을 평균
- threshold(=0.80)이상인 데이터는 1로, 미만인 데이터는 0으로  최종 예측

코드