데이터·AI를 활용한 물가 예측 경진대회 : 농산물 가격을 중심으로

평가 데이터 Leakage에 관련해 질문 있습니다.

2024.10.02 10:23 1,341 Views

TEST_05+1순

TEST_05+2순

TEST_05+3순

의 값을 채우기 위해 TEST_00~Test_04는 사용하면 안되는 것인가요?

TEST_n 이 2022년 중 9개의 랜덤한 시점을 골라낸 것 같긴 해서 큰 의미는 없어 보이지만 leakage에 걸릴까 싶어 여쭤봅니다!

Submission 의 Test_n +1,2,3을 값을 채우기 위해서 반드시 해당하는 Test_n의 데이터만 사용해야 하며, 그 외의 Test_a,b,c, 등은 사용해선 안되는 것이 맞을까요?

Login Required
0 / 1000
DACON.GM
2024.10.02 10:33

네, 해당 내용은 추론 시 Data Leakage 규칙과 관련해 매우 중요한 부분입니다.

TEST_05+1순, TEST_05+2순, TEST_05+3순을 예측할 때는 TEST_05.csv, 그리고 필요시 TEST_전국도매_05.csv 및 TEST_산지공판장_05.csv만 사용해야 합니다. 만약 다른 TEST 데이터셋(예: TEST_01 등)을 활용해 예측을 진행하는 경우, 이는 **Data Leakage**에 해당됩니다.

이유는 TEST 샘플의 예측 시점(T)이 해당 샘플 번호에 종속되기 때문입니다. 다른 TEST 샘플의 데이터를 사용하면 해당 예측 시점을 넘어서는 정보가 포함될 수 있어, 누출의 위험이 있습니다.

KKYU
2024.10.02 10:42

넵 감사합니다!