음성 감정 인식 AI 경진대회 월간 데이콘

알고리즘 | 음향 | 감정인식 | 분류 | Accuracy

  • moneyIcon 상금 : 인증서
  • 901명 마감

 

huggingface를 통한 speech-to-text 피처 생성

2023.05.11 00:07 2,325 조회 language

audio를 텍스트로 변환하는 코드입니다.

wav2vec2를 통해 텍스트를 추출하고 textblob 라이브러리를 통해 추가적으로 후처리를 진행합니다.

텍스트를 사용해 추가적인 EDA를 하거나, 텍스트와 오디오 모두 사용하는 multimodal 학습으로 접근하는것도 좋을 것 같습니다.

코드
로그인이 필요합니다
0 / 1000
bluebear7878
2023.05.23 15:19

혹시 text 로 분류모델 넣어보셨나요? 저도 해봣는데 성능이 너무 낮게나오는데 제가 코드를 잘 못 짠건지, 대략적인 성능을 알려주실수있나요?

파이썬초보만
2023.05.23 21:53

텍스트로 분류모델 넣었을때 0.2 정도 나왔습니다

Lys
2023.05.24 14:42

변환한 텍스트를 자세히 살펴보면 동일한 텍스트에 다른 라벨이 부여된 경우가 많습니다.  텍스트로서의 의미보다 소리의 강, 약 등의 요소로 인해 라벨이 부여된 것으로 보입니다.