‘Korea East-West Power Corporation’ Solar Power Prediction AI Competition

Algorithm | Structured | Regression | Energy | NMAE

  • moneyIcon 16,000,000 KRW
  • 1,595 Users Completed

 

data leakage 질문

Anonymous
2021.05.28 15:51 1,547 Views

제가 이해한 바로는 예측일 전날 자정까지 확인이 가능한 데이터만 사용 가능하다고 알고 있습니다.


즉, 예측일에 해당하는 기상 관측 데이터는 사용할 수 없다는 의미로 이해했습니다.

(예를 들어 2월 5일 발전량을 예측해야된다면 2월 4일까지 확인 가능한 데이터만 사용 가능, 2월 5일 기상관측 데이터는 사용불가)


궁금한점이 있는데 위 내용의 범위가 학습과 추론 둘다 해당되나요?


예를 들어 학습할 때에는 예측 당일에 해당되는 기상 관측 데이터를 사용하고(feature engineering, pre-trained model 용도 등)


추론에서는 예보 데이터만 사용한다면 data leakage에 해당되는지 궁금합니다.



Login Required
0 / 1000
DACONIO
2021.12.22 10:33

안녕하세요.

학습 과정에서는 관측 데이터를 추론 과정에서는 예보데이터를 사용하는 것은 data leakage에 해당하지 않습니다.

감사합니다.
데이콘 드림

anonymous
Writer
2021.05.28 17:51

감사합니다. 
대회 규칙 4. 외부 데이터 및 사전학습 모델에서 첫번째 항목인 
- 예측 전날 자정까지 확인 가능한 데이터만 학습 및 추론 과정에서 사용 가능
으로 되어 있어 궁금해서 문의드렸습니다.

DACONIO
2021.05.28 18:04

해당 규칙은 실제 적용이 가능한가를 기준으로 작성하였습니다.
작성자님께서 말씀해주신 방법은 해당 안내와 상충되나 실제 상황에 적용이 가능한 부분입니다.
이에 해당 방법 사용은 가능합니다.
감사합니다.