월간 데이콘 기계 고장 진단 AI 경진대회

데이터의 특징을 추출할 때 주피터 노트북이 너무 느린데요.

2023.01.11 01:41 4,586 조회

이럴 경우에 다른 분들은 어떻게 이 문제를 해결하시나요?

이런 문제는 gpu로는 해결 가능할까요?

로그인이 필요합니다
0 / 1000
권남우
2023.01.11 15:42

혹시 sr 하이퍼 파라미터를 16000으로 설정해보시는 건 어떠신가요
wav 확장자는 sr이 16000 이여서요 
default 값은 22500이에요

y, sr = librosa.load(path, sr=16000)

통계
2023.01.11 15:43

16000으로 했는데 느리게 된 것입니다. 

통계
2023.01.11 15:47

죄송하지만 하나만 더 여쭈어보겠습니다. sr은 바꿔도 상관없을까요? baseline에서는 16000이라고 기재되어 있지만요....

권남우
2023.01.11 16:31

https://vitheal.com/12

* 여러 기술 블로그를 검색해보니 높은 sr (Sample Rate)는 더 많은 정보를 가지게 한다고 합니다 (음질 향상 혹은 아날로그 소리에 가까워짐)

* 그래서 높은 Sample Rate가 성능 향상에 도움이 될 수 있다고 생각합니다

* 그러나 여러 다른 블로그에서 높은 Sample Rate가 무조건으로 좋다고는 하지 않습니다 (전문 분야가 아니여서 자세한 내용은 잘 모릅니다)

* 결론적으로 sr 값을 변경하면서 다양한 전처리와 모델링을 수행하여 최적을 알고리즘을 개발하는 것이 좋을 것 같습니다

감사합니다

통계
2023.01.12 00:07

바쁘실텐데  찾아주시고 알려주셔서 감사합니다.

권남우
2023.01.11 16:58

nnAudio 라이브러리 사용해보시는 건 어떤가요?
* 깃허브 : https://github.com/KinWaiCheuk/nnAudio
* MFCC 추출하는 법 : https://kinwaicheuk.github.io/nnAudio/_autosummary/nnAudio.features.mel.MFCC.html#nnAudio.features.mel.MFCC
* 속도에 관한 설명 :  https://kinwaicheuk.github.io/nnAudio/intro.html#speed

통계
2023.01.12 00:07

감사합니다.

David2do
2023.01.13 20:01

혹시,  librosa에서 Feature 뽑을 때 평균으로 뽑은 건가요?  평균으로 안 받고 통채로 받으면 양이 많다 보니 좀 오래 걸리더라구요.

파이썬초보만
2023.01.14 01:53

만약 for x in df : 를 사용하신다면
for idx, row in df.iterrows(): 로 바꾸시면 속도가 빨라집니다.
베이스라인 코드 기준으로
for idx, row in tqdm(df.iterrows(),total=len(df)):
    path = './data' + row['SAMPLE_PATH'][1:]
    y, sr = librosa.load(path, sr=CFG['SR'])

Herseept
2025.10.07 13:18

I think it depends on the type of problem. If it's the data preprocessing stage, GPUs might not be very effective, but if it's the model training stage, they definitely help. What framework are you using? https://blockblastonline.com