웹 광고 클릭률 예측 AI 경진대회

submission파일 제출시 정확도 하락

2024.05.28 16:50 569 Views

데이터가 너무 커서 데이터 양을 줄여서 학습중입니다.

voting 모델로 train/test의 auc_roc_score는

0.7444949216408164

0.7378862932222221

와 같이 나오지만 막상 submission 파일 제출하게되면 0.7을 넘기지 못합니다 ㅠㅠ

데이터 양을 늘리게되면 submission파일의 스코어도 올라갈까요?

로그인이 필요합니다
0 / 1000
EISLab_이희원
2024.05.29 13:39

데이터의 일부분만 가지고 학습하면 과적합의 가능성이 높아집니다.
이전에 제가 제안한 방법을 사용하셨다면, 전체 데이터에서 랜덤으로 추출하기 때문에 특정 상황에 편향될 수 있습니다.
또한, train set의 다양성이 줄어들면서 모델이 학습 과정에서 높은 AUC-ROC를 기록해도, test set이 train set과 다른 분포를 가질 경우 모델의 성능이 저하될 수 있습니다.

train set의 양을 늘리게 된다면, 당연히 Public score가 증가하게 됩니다.
충분한 RAM용량(64GB 이상)을 가지고 계신다면, 전체 train set으로 학습하시는 것을 추천드립니다.

콜리김
2024.05.29 13:42

답변 감사합니다 
사용가능한 장비가 있는지 찾아보고 시도해보도록 하겠습니다

Optimus
2024.05.29 13:13

데이터 전처리 & Split 과정에서 의도치 않았던 data leakage가 있었는지 체크해보는 것도 좋을 것 같아요

콜리김
2024.05.29 13:42

친절한 답변 감사합니다 ~ ㅎㅎ