분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
huggingface를 통한 speech-to-text 피처 생성
audio를 텍스트로 변환하는 코드입니다.
wav2vec2를 통해 텍스트를 추출하고 textblob 라이브러리를 통해 추가적으로 후처리를 진행합니다.
텍스트를 사용해 추가적인 EDA를 하거나, 텍스트와 오디오 모두 사용하는 multimodal 학습으로 접근하는것도 좋을 것 같습니다.
텍스트로 분류모델 넣었을때 0.2 정도 나왔습니다
변환한 텍스트를 자세히 살펴보면 동일한 텍스트에 다른 라벨이 부여된 경우가 많습니다. 텍스트로서의 의미보다 소리의 강, 약 등의 요소로 인해 라벨이 부여된 것으로 보입니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
혹시 text 로 분류모델 넣어보셨나요? 저도 해봣는데 성능이 너무 낮게나오는데 제가 코드를 잘 못 짠건지, 대략적인 성능을 알려주실수있나요?