월간 데이콘 음성 중첩 데이터 분류 AI 경진대회

알고리즘 | Audio | 분류 | 제어 | KL Divergence

상금 100만 원
594명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

LB: 1.13106, 이미지로 학습해보자!

제루스챈스

2020.06.30 20:51 9,455 조회 language

토론의 librosa를 활용하여 스펙트럼을 얻는 것에서 아이디어를 얻어 이미지로 학습하는 코드를 만들었습니다.
재미있게 봐주세요! 많은 조언 부탁드립니다:)

한 것
1. librosa 패키지 활용 Mel spectrogram 추출
2. 스펙트럼을 3가지 방법 (log, log1p, normal) 으로 처리하여 각 채널에 넣음
3. Conv2D로 모델 생성, 개별 단어도 학습하도록 함
4. validation 점수가 좋은 가중치 파일 10개를 사용해 결과 파일 생성

참고
https://dacon.io/competitions/official/235616/codeshare/1277

코드

댓글 7개

로그인이 필요합니다

comment

0 / 1000

JGAhn

2020.07.01 21:56

감사합니다 :) 전처리 3개를 쌓아서 이미지로 학습시키는 것은 생각지도 못했던 방법이었어요.
저는 개인 컴퓨터에서 전처리 작업하고 npy로 저장한다음 colab에서 불러서 학습시켰는데 모델에서는 배치사이즈 말고는 바뀐부분이 없는데 2.07 아래로 내려가지를 않네요 ㅠ.. 혹시 짐작가시는 원인이 있을까요?

제루스챈스

2020.07.01 22:05

val_voice_all_loss가 2점대 인가요? 다른 loss는 모델에서 부수적으로 나오는 것으로 리더보드 점수와 큰 연관이 없습니다.

JGAhn

2020.07.01 22:12

네네 val_voice_all_loss가 2점대입니다. 30epoch까지 두번정도 돌려봤는데 두번다 2.07 아래로 내려가지를 못했어요.

제루스챈스

2020.07.01 22:56

학습이 안되고 있는 것 같습니다. 확실하진 않지만 훈련 데이터와 정답 데이터 순서가 달라진게 아닌가 싶습니다. glob로 가져오는 files 내 파일 순서와 정답값 y_data 순서가 맞는지 확인해 보시는게 좋을 것 같습니다.

JGAhn

2020.07.01 23:20

하하하하... 너무 감사합니다
이거 스치듯이 생각했었는데 확인해 보니까 확실하네요 .....