분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
월간 데이콘 영어 음성 국적 분류 AI 경진대회
CV의성능과 LB 차이가 나네요. 다른 분들은 어떠신가요?
loss : 0.7xxx
accuracy : 0.8xxx
였던 모델을 제출하니 loss가 2.xxx 가 나옵니다.
다른 분들은 CV 와 LB의 점수가 비슷하게 나오는지 궁금합니다.
test의 전처리 시 문제가 있나 찾아봐도 큰 문제는 없어보이고요 ㅠㅠ
다른 분들도 CV와LB 차이가 나면 데이터 분포의 차이라고는 생각해 볼 수는 있을것 같아서 질문 드립니다.
아 음성 데이터에 사람 고유의 특성이 담길 수 있겠네요!
train data에서는 한 사람이 많은 내용을 녹음 했을 수도 있고 그 사람이 test data에 녹음한 내용이 적거나 없을 수 있을 수 있겠네요 !
좋은 의견 감사합니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
최정명님 말씀처럼 데이터 분포 차이가 있을 수도 있고,
저는 train data를 녹음한 사람과 test data를 녹음한 사람이 다른 사람이라 그럴 수도 있다고 생각합니다.
train data를 보니 각 국적마다 녹음한 사람이 동일한 경우가 있는데
test data에 train data에 없는 사람의 목소리가 추출되었다면 cv와 lb 차이가 생길 수 있을 것 같습니다...
개인적인 생각이지만 아마 이미지 문제처럼 증강을 어떻게 하느냐가 중요할 것 같기도 합니다.