[기업은행 혁신리그 사전강의] 영화 리뷰 감성 분석

알고리즘 | NLP | 분류 | 자연어 | Accuracy

제출

[질문]train 데이터의 불균형에 대한 일반화 성능의 연관 질문 입니다.

2022.09.29 21:51 612 조회

train 데이터의 lable 분류값의 분포가 5:5가 아닐경우

예를 들어 9:1의 경우, train데이터 중 9에 해당하는 데이터를 일부 버리고

5:5 비율로 맞춰어 학습 시키는 것이 좀더 높은 성능의 일반화에 더 유리한것인가요?

로그인이 필요합니다

comment

0 / 1000

affjljoo3581

2022.09.29 22:04

데이터 특성이나 문제에 따라서 다르지만, 통상적으로는 불균형이 심한 경우 분포를 맞추어 주기도 합니다. 데이터 수가 많으면 질문 주신 것처럼 일부를 버리고 5:5로 맞추는 undersampling 기법도 사용합니다.

만땅상회

2022.09.30 08:41

감사합니다.

카리스마만

2022.10.01 22:32

데이터를 일부를 버린다는것에 대한 기준이 있나요?
불균형을 맞추기 위해서 실제 버리는게 맞는지에 대한 판단이 선행 되어야 한다고 생각되는데
그에 대한 판단 기준이 있는지 궁금합니다

affjljoo3581

2022.10.06 16:22

undersampling이나 oversampling에 대한 정형화된 판단 기준은 별도로 있지는 않습니다. 다만 통상적으로 데이터의 양에 의해서 정해지곤 합니다. 물론 이상적으로는 모든 데이터 불균형 해소 기법에 대한 성능 비교를 진행한 후에 결정하기도 합니다.

현재 글

[질문]train 데이터의 불균형에 대한 일반화 성능의 연관 질문 입니다.

대회 - [기업은행 혁신리그 사전강의] 영화 리뷰 감성 분석

3년 전