분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2023 전력사용량 예측 AI 경진대회
test data leakage
평가방식에 의문이 들어서 다른분들께서는 어떻게 생각하는지 궁금합니다.
Public LB: 8/25~8/27
Private LB: 8/25~8/31
이면 Pubilic LB와 Private LB가 겹쳐서
이미 Test data가 leakage 되는 거 같은데
7일을 예측하되
Public LB: 8/25~27
Private LB: 8/27~31
로 해야 맞는 것이 아닌지요??
Public LB와 Private LB가 겹친 대회는 아직 못봤어서 다른분들은 어떻게 생각하시는지 궁금하네요
Public test set에 대해서 탐침한 결과가 Private LB에 직접적인 영향을 준다는 의미로 사용했는데
의미에 혼동이 있네요. 죄송합니다.
저는 개인적으로 Public test set이 Private test set에 포함되는게 바람직하지 않은 것 같은데
좀 더 찾아봐야겠네요.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
Data Leakage란 학습할 때, Test Dataset이 포함되는 경우를 말합니다.
이미 우리는 8월 25일 이전의 데이터셋으로 학습하고,
8월 25일부터 31일까지 데이터셋을 추론합니다.
이는 Public 기간에는 전체 Test Dataset 중 일부만으로 평가한다는 뜻이고,
Private 기간에는 전체 Test Dataset으로 평가한다는 뜻입니다.
이는 Data Leakage에 해당하지 않습니다.
참고로 다른 대회에서 public 기간에는 샘플링된 30%의 데이터셋으로 평가하고,
private 기간에는 전체 100% 데이터셋으로 평가하는 대회가 더러 있습니다.