서두르세요! "데이스쿨 40% 할인" 12월 2일까지!
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
huggingface를 통한 speech-to-text 피처 생성
audio를 텍스트로 변환하는 코드입니다.
wav2vec2를 통해 텍스트를 추출하고 textblob 라이브러리를 통해 추가적으로 후처리를 진행합니다.
텍스트를 사용해 추가적인 EDA를 하거나, 텍스트와 오디오 모두 사용하는 multimodal 학습으로 접근하는것도 좋을 것 같습니다.
텍스트로 분류모델 넣었을때 0.2 정도 나왔습니다
변환한 텍스트를 자세히 살펴보면 동일한 텍스트에 다른 라벨이 부여된 경우가 많습니다. 텍스트로서의 의미보다 소리의 강, 약 등의 요소로 인해 라벨이 부여된 것으로 보입니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
혹시 text 로 분류모델 넣어보셨나요? 저도 해봣는데 성능이 너무 낮게나오는데 제가 코드를 잘 못 짠건지, 대략적인 성능을 알려주실수있나요?