2023 전력사용량 예측 AI 경진대회

test data leakage

2023.08.06 10:53 1,104 조회

평가방식에 의문이 들어서 다른분들께서는 어떻게 생각하는지 궁금합니다.

Public LB: 8/25~8/27

Private LB: 8/25~8/31

이면 Pubilic LB와 Private LB가 겹쳐서

이미 Test data가 leakage 되는 거 같은데

7일을 예측하되

Public LB: 8/25~27

Private LB: 8/27~31

로 해야 맞는 것이 아닌지요??

Public LB와 Private LB가 겹친 대회는 아직 못봤어서 다른분들은 어떻게 생각하시는지 궁금하네요

로그인이 필요합니다
0 / 1000
EISLab_이희원
2023.08.06 20:03

Data Leakage란 학습할 때, Test Dataset이 포함되는 경우를 말합니다.
이미 우리는 8월 25일 이전의 데이터셋으로 학습하고,
8월 25일부터 31일까지 데이터셋을 추론합니다.
이는 Public 기간에는 전체 Test Dataset 중 일부만으로 평가한다는 뜻이고,
Private 기간에는 전체 Test Dataset으로 평가한다는 뜻입니다.

이는 Data Leakage에 해당하지 않습니다.

참고로 다른 대회에서 public 기간에는 샘플링된 30%의 데이터셋으로 평가하고, 
private 기간에는 전체 100% 데이터셋으로 평가하는 대회가 더러 있습니다.

똥안
2023.08.06 21:37

Public test set에 대해서 탐침한 결과가 Private LB에 직접적인 영향을 준다는 의미로 사용했는데
의미에 혼동이 있네요. 죄송합니다.
저는 개인적으로 Public test set이 Private test set에 포함되는게 바람직하지 않은 것 같은데
좀 더 찾아봐야겠네요.