분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
웹 광고 클릭률 예측 AI 경진대회
submission파일 제출시 정확도 하락
데이터가 너무 커서 데이터 양을 줄여서 학습중입니다.
voting 모델로 train/test의 auc_roc_score는
0.7444949216408164
0.7378862932222221
와 같이 나오지만 막상 submission 파일 제출하게되면 0.7을 넘기지 못합니다 ㅠㅠ
데이터 양을 늘리게되면 submission파일의 스코어도 올라갈까요?
답변 감사합니다
사용가능한 장비가 있는지 찾아보고 시도해보도록 하겠습니다
데이터 전처리 & Split 과정에서 의도치 않았던 data leakage가 있었는지 체크해보는 것도 좋을 것 같아요
친절한 답변 감사합니다 ~ ㅎㅎ
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
데이터의 일부분만 가지고 학습하면 과적합의 가능성이 높아집니다.
이전에 제가 제안한 방법을 사용하셨다면, 전체 데이터에서 랜덤으로 추출하기 때문에 특정 상황에 편향될 수 있습니다.
또한, train set의 다양성이 줄어들면서 모델이 학습 과정에서 높은 AUC-ROC를 기록해도, test set이 train set과 다른 분포를 가질 경우 모델의 성능이 저하될 수 있습니다.
train set의 양을 늘리게 된다면, 당연히 Public score가 증가하게 됩니다.
충분한 RAM용량(64GB 이상)을 가지고 계신다면, 전체 train set으로 학습하시는 것을 추천드립니다.