분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
데이터·AI를 활용한 물가 예측 경진대회 : 농산물 가격을 중심으로
평가 데이터 Leakage에 관련해 질문 있습니다.
TEST_05+1순
TEST_05+2순
TEST_05+3순
의 값을 채우기 위해 TEST_00~Test_04는 사용하면 안되는 것인가요?
TEST_n 이 2022년 중 9개의 랜덤한 시점을 골라낸 것 같긴 해서 큰 의미는 없어 보이지만 leakage에 걸릴까 싶어 여쭤봅니다!
Submission 의 Test_n +1,2,3을 값을 채우기 위해서 반드시 해당하는 Test_n의 데이터만 사용해야 하며, 그 외의 Test_a,b,c, 등은 사용해선 안되는 것이 맞을까요?
넵 감사합니다!
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
네, 해당 내용은 추론 시 Data Leakage 규칙과 관련해 매우 중요한 부분입니다.
TEST_05+1순, TEST_05+2순, TEST_05+3순을 예측할 때는 TEST_05.csv, 그리고 필요시 TEST_전국도매_05.csv 및 TEST_산지공판장_05.csv만 사용해야 합니다. 만약 다른 TEST 데이터셋(예: TEST_01 등)을 활용해 예측을 진행하는 경우, 이는 **Data Leakage**에 해당됩니다.
이유는 TEST 샘플의 예측 시점(T)이 해당 샘플 번호에 종속되기 때문입니다. 다른 TEST 샘플의 데이터를 사용하면 해당 예측 시점을 넘어서는 정보가 포함될 수 있어, 누출의 위험이 있습니다.