[기업은행 혁신리그 사전강의] 영화 리뷰 감성 분석

알고리즘 | NLP | 분류 | 자연어 | Accuracy

  • moneyIcon 상금 : 총 0만원
  • 52명 마감

 

[질문]train 데이터의 불균형에 대한 일반화 성능의 연관 질문 입니다.

2022.09.29 21:51 612 조회

train 데이터의 lable 분류값의 분포가 5:5가 아닐경우

예를 들어 9:1의 경우, train데이터 중 9에 해당하는 데이터를 일부 버리고

5:5 비율로 맞춰어 학습 시키는 것이 좀더 높은 성능의 일반화에 더 유리한것인가요?

로그인이 필요합니다
0 / 1000
affjljoo3581
2022.09.29 22:04

데이터 특성이나 문제에 따라서 다르지만, 통상적으로는 불균형이 심한 경우 분포를 맞추어 주기도 합니다. 데이터 수가 많으면 질문 주신 것처럼 일부를 버리고 5:5로 맞추는 undersampling 기법도 사용합니다.

만땅상회
2022.09.30 08:41

감사합니다.

카리스마만
2022.10.01 22:32

데이터를 일부를 버린다는것에 대한 기준이 있나요? 
불균형을 맞추기 위해서 실제 버리는게 맞는지에 대한 판단이 선행 되어야 한다고 생각되는데
그에 대한 판단 기준이 있는지 궁금합니다  

affjljoo3581
2022.10.06 16:22

undersampling이나 oversampling에 대한 정형화된 판단 기준은 별도로 있지는 않습니다. 다만 통상적으로 데이터의 양에 의해서 정해지곤 합니다. 물론 이상적으로는 모든 데이터 불균형 해소 기법에 대한 성능 비교를 진행한 후에 결정하기도 합니다.