월간 데이콘 기계 고장 진단 AI 경진대회

데이터의 특징을 추출할 때 주피터 노트북이 너무 느린데요.

2023.01.11 01:41 2,314 조회

이럴 경우에 다른 분들은 어떻게 이 문제를 해결하시나요?

이런 문제는 gpu로는 해결 가능할까요?

로그인이 필요합니다
0 / 1000
권남우
2023.01.11 15:42

혹시 sr 하이퍼 파라미터를 16000으로 설정해보시는 건 어떠신가요
wav 확장자는 sr이 16000 이여서요 
default 값은 22500이에요

y, sr = librosa.load(path, sr=16000)

통계
2023.01.11 15:43

16000으로 했는데 느리게 된 것입니다. 

통계
2023.01.11 15:47

죄송하지만 하나만 더 여쭈어보겠습니다. sr은 바꿔도 상관없을까요? baseline에서는 16000이라고 기재되어 있지만요....

권남우
2023.01.11 16:31

https://vitheal.com/12

* 여러 기술 블로그를 검색해보니 높은 sr (Sample Rate)는 더 많은 정보를 가지게 한다고 합니다 (음질 향상 혹은 아날로그 소리에 가까워짐)

* 그래서 높은 Sample Rate가 성능 향상에 도움이 될 수 있다고 생각합니다

* 그러나 여러 다른 블로그에서 높은 Sample Rate가 무조건으로 좋다고는 하지 않습니다 (전문 분야가 아니여서 자세한 내용은 잘 모릅니다)

* 결론적으로 sr 값을 변경하면서 다양한 전처리와 모델링을 수행하여 최적을 알고리즘을 개발하는 것이 좋을 것 같습니다

감사합니다

통계
2023.01.12 00:07

바쁘실텐데  찾아주시고 알려주셔서 감사합니다.

권남우
2023.01.11 16:58

nnAudio 라이브러리 사용해보시는 건 어떤가요?
* 깃허브 : https://github.com/KinWaiCheuk/nnAudio
* MFCC 추출하는 법 : https://kinwaicheuk.github.io/nnAudio/_autosummary/nnAudio.features.mel.MFCC.html#nnAudio.features.mel.MFCC
* 속도에 관한 설명 :  https://kinwaicheuk.github.io/nnAudio/intro.html#speed

통계
2023.01.12 00:07

감사합니다.

David2do
2023.01.13 20:01

혹시,  librosa에서 Feature 뽑을 때 평균으로 뽑은 건가요?  평균으로 안 받고 통채로 받으면 양이 많다 보니 좀 오래 걸리더라구요.

파이썬초보만
2023.01.14 01:53

만약 for x in df : 를 사용하신다면
for idx, row in df.iterrows(): 로 바꾸시면 속도가 빨라집니다.
베이스라인 코드 기준으로
for idx, row in tqdm(df.iterrows(),total=len(df)):
    path = './data' + row['SAMPLE_PATH'][1:]
    y, sr = librosa.load(path, sr=CFG['SR'])