분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[질문]train 데이터의 불균형에 대한 일반화 성능의 연관 질문 입니다.
train 데이터의 lable 분류값의 분포가 5:5가 아닐경우
예를 들어 9:1의 경우, train데이터 중 9에 해당하는 데이터를 일부 버리고
5:5 비율로 맞춰어 학습 시키는 것이 좀더 높은 성능의 일반화에 더 유리한것인가요?
감사합니다.
데이터를 일부를 버린다는것에 대한 기준이 있나요?
불균형을 맞추기 위해서 실제 버리는게 맞는지에 대한 판단이 선행 되어야 한다고 생각되는데
그에 대한 판단 기준이 있는지 궁금합니다
undersampling이나 oversampling에 대한 정형화된 판단 기준은 별도로 있지는 않습니다. 다만 통상적으로 데이터의 양에 의해서 정해지곤 합니다. 물론 이상적으로는 모든 데이터 불균형 해소 기법에 대한 성능 비교를 진행한 후에 결정하기도 합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
데이터 특성이나 문제에 따라서 다르지만, 통상적으로는 불균형이 심한 경우 분포를 맞추어 주기도 합니다. 데이터 수가 많으면 질문 주신 것처럼 일부를 버리고 5:5로 맞추는 undersampling 기법도 사용합니다.