분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[질문]train 데이터의 불균형에 대한 일반화 성능의 연관 질문 입니다.
train 데이터의 lable 분류값의 분포가 5:5가 아닐경우
예를 들어 9:1의 경우, train데이터 중 9에 해당하는 데이터를 일부 버리고
5:5 비율로 맞춰어 학습 시키는 것이 좀더 높은 성능의 일반화에 더 유리한것인가요?
감사합니다.
데이터를 일부를 버린다는것에 대한 기준이 있나요?
불균형을 맞추기 위해서 실제 버리는게 맞는지에 대한 판단이 선행 되어야 한다고 생각되는데
그에 대한 판단 기준이 있는지 궁금합니다
undersampling이나 oversampling에 대한 정형화된 판단 기준은 별도로 있지는 않습니다. 다만 통상적으로 데이터의 양에 의해서 정해지곤 합니다. 물론 이상적으로는 모든 데이터 불균형 해소 기법에 대한 성능 비교를 진행한 후에 결정하기도 합니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
데이터 특성이나 문제에 따라서 다르지만, 통상적으로는 불균형이 심한 경우 분포를 맞추어 주기도 합니다. 데이터 수가 많으면 질문 주신 것처럼 일부를 버리고 5:5로 맞추는 undersampling 기법도 사용합니다.