서두르세요! "데이스쿨 40% 할인" 12월 2일까지!
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
월간 데이콘 영어 음성 국적 분류 AI 경진대회
CV의성능과 LB 차이가 나네요. 다른 분들은 어떠신가요?
loss : 0.7xxx
accuracy : 0.8xxx
였던 모델을 제출하니 loss가 2.xxx 가 나옵니다.
다른 분들은 CV 와 LB의 점수가 비슷하게 나오는지 궁금합니다.
test의 전처리 시 문제가 있나 찾아봐도 큰 문제는 없어보이고요 ㅠㅠ
다른 분들도 CV와LB 차이가 나면 데이터 분포의 차이라고는 생각해 볼 수는 있을것 같아서 질문 드립니다.
아 음성 데이터에 사람 고유의 특성이 담길 수 있겠네요!
train data에서는 한 사람이 많은 내용을 녹음 했을 수도 있고 그 사람이 test data에 녹음한 내용이 적거나 없을 수 있을 수 있겠네요 !
좋은 의견 감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
최정명님 말씀처럼 데이터 분포 차이가 있을 수도 있고,
저는 train data를 녹음한 사람과 test data를 녹음한 사람이 다른 사람이라 그럴 수도 있다고 생각합니다.
train data를 보니 각 국적마다 녹음한 사람이 동일한 경우가 있는데
test data에 train data에 없는 사람의 목소리가 추출되었다면 cv와 lb 차이가 생길 수 있을 것 같습니다...
개인적인 생각이지만 아마 이미지 문제처럼 증강을 어떻게 하느냐가 중요할 것 같기도 합니다.