분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
submission파일 제출시 정확도 하락
데이터가 너무 커서 데이터 양을 줄여서 학습중입니다.
voting 모델로 train/test의 auc_roc_score는
0.7444949216408164
0.7378862932222221
와 같이 나오지만 막상 submission 파일 제출하게되면 0.7을 넘기지 못합니다 ㅠㅠ
데이터 양을 늘리게되면 submission파일의 스코어도 올라갈까요?
답변 감사합니다
사용가능한 장비가 있는지 찾아보고 시도해보도록 하겠습니다
데이터 전처리 & Split 과정에서 의도치 않았던 data leakage가 있었는지 체크해보는 것도 좋을 것 같아요
친절한 답변 감사합니다 ~ ㅎㅎ
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
데이터의 일부분만 가지고 학습하면 과적합의 가능성이 높아집니다.
이전에 제가 제안한 방법을 사용하셨다면, 전체 데이터에서 랜덤으로 추출하기 때문에 특정 상황에 편향될 수 있습니다.
또한, train set의 다양성이 줄어들면서 모델이 학습 과정에서 높은 AUC-ROC를 기록해도, test set이 train set과 다른 분포를 가질 경우 모델의 성능이 저하될 수 있습니다.
train set의 양을 늘리게 된다면, 당연히 Public score가 증가하게 됩니다.
충분한 RAM용량(64GB 이상)을 가지고 계신다면, 전체 train set으로 학습하시는 것을 추천드립니다.