(NLP) 다들 갖고 있는 오버샘플링과 다운샘플링 노하우나 가이드라인이 있으신가요?

잔감

2023.04.10 17:09 2,976 조회

모두들 정답은 데이터의 특성마다 다르기 때문에 매번 살펴봐야한다고 말하시지만..

개인이 부족한 리소스로 몇번 몇십번이나 다른 비율로, 다른 방법으로 증강된 데이터를 훈련시킨다는게 보통이 아니네요 ㅠㅠ..

optuna 라이브러리로 하이퍼파라미터 탐색하는 것도 그렇구요

데이터 공부하는 사람으로서 궁금해서 올려봅니다..!

댓글 2개

로그인이 필요합니다

comment

0 / 1000

도비콘

2023.04.15 18:53

https://dacon.io/forum/408203 인공지능 경진대회에서 버샘플링과 다운샘플링 노하우를 알려줘~

EISLab_이희원

2023.04.15 22:56

오버 샘플링이나 다운 샘플링은 class imbalance를 해결하기 위해 사용한다고 알려져 있습니다.
하지만 샘플링 과정을 거친다면, 특정 데이터에 과하게 학습되어 overfitting이 될 수 있습니다.
대신 학습 방법을 바꿔 overfittng을 해결하고 class imbalance를 해결할 수 있습니다.
- 예를 들어 stratifiedkfold를 사용하여 train dataset과 valid dataset의 class 분포를 동일하게 만들 수 있습니다.
- class imbalance를 해결하기 위해 설계된 Loss를 사용할 수 있습니다. 예를 들어, pytorch의 crossentropyloss에서 weights 변수에 class 당 weight를 계산하여 할당할 수 있던지, 혹은 FocalLoss 또는 asymmetricloss(multi-label)를 사용할 수 있습니다.
- weightedrandomsampler를 사용하여 특정 class가 과도하게 학습되는 것을 예방할 수 있습니다.

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!

목록으로

📨 [뉴스레터] 더 강력해져서 돌아온 5호 뉴스레터!