2023 전력사용량 예측 AI 경진대회

inference 질문

2023.07.26 09:45 1,679 조회

training 시 2022.8.24 23:59:59 까지 데이터만 (training data) 사용 가능하고, 

inference 시 2022.8.31 23:59:59 까지 데이터가 (training data + test data) 사용 가능  하다고 이해하면 되나요?

예를 들면, 2022.8.27 23 예측 시 2022.8.27 23 까지의 모든 데이터 (training data + test data)를 X로서 사용해도 문제가 없는건가요?

로그인이 필요합니다
0 / 1000
DACON.SeungYoon
2023.07.26 11:32

안녕하세요, 똥안 님
문의사항에 대한 답변을 드립니다:
1) 모델링 및 분석을 진행하실 때에는 2022.8.24 23:59:59 시점에 알 수 있는 정보만 활용 가능하며, 이는 train.csv와 test.csv를 포함합니다. 
왜냐하면 test.csv는 예보 데이터이기에, 2022.8.24 23:59:59 시점에 알 수 있기 때문입니다.
2) 추론을 진행하실 때에는 sample_submission에서 요구하는 예측 대상들에 대해서 추론을 진행하시면 됩니다.
3) 예시에 대해서 말씀드리자면, 2022.8.27 23을 예측하실 때 2022.8.27 23까지의 모든 데이터를 활용하신다고 하셨는데,
실제로 사용하시는 건 2022.8.24까지의 실제값 + 2022.8.25부터 2022.8.27 23까지의 예보값을 이용하신다고 보시면 됩니다.
다만 실제로 2022.8.25부터 알 수 있는 정보를 활용하면 Data Leakage에 해당하는 주의하시길 바랍니다.
감사합니다.

똥안
2023.07.26 12:34

명확하네요. 감사합니다.

SH Jeong
2023.08.16 16:36

안녕하세요, 먼저 명확한 답변 감사합니다.
위 답글에서 '실제값'과 '예보값'이라는 표현으로 예를 들어주셨는데요. 두 값이 정확히 어떻게 정의되는걸까요?
예를들어 예보값은 train.csv 데이터의 label인 전력소비량을 제외한 모든 컬럼을 의미한다고 이해해도 되는걸까요?

똥안
2023.08.16 17:28

24일 기준으로 24일 이하 모든 값은 실제 기록된 값이고, (8월 24일까지 실제값)
24일 위 모든 값은 예측된 값입니다. (8월 25일부터 예보값)

okso6441
2023.07.27 08:14

test 기간을 예측한 값을 학습 데이터로 활용해도 되는 걸까요??

DACON.GM
2023.07.27 10:28

안녕하세요 okso6441님,
Test 기간을 예측한 값을 다시 Input으로 활용해서 예측은 가능하나,
예측한 값을 다시 학습시키는 것은 규정상 불가능한 방법입니다. (이러한 방법은 Pseudo Labeling으로 간주하며, 규정에 Pseudo Labeling은 사용 불가 명시)
감사합니다.