동서발전 태양광 발전량 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 에너지 | NMAE

  • moneyIcon 상금 1,600만 원
  • 1,595명 마감

 

data leakage 관련 문의

작성자 비공개
2021.05.11 23:29 1,383 조회


안녕하세요.


data leakage 관련해 궁금한 점이 있어 문의드립니다.


본 대회 private 평가는 2021년 2월 1일 ~ 2021년 2월 28일 발전량을 예측하는 것입니다.


위에 첨부드린 사진의 댓글과 관련하여 '예측하기 위한 데이터'와 '학습하기 위한 데이터' 사용에 대해 궁금증이 있습니다.


2021년 2월 11일 발전량을 예측하기 위해서는 2021년 2월 10일까지 수집 가능한 '예측하기 위한 데이터'를 사용해야


data leakage에 해당하지 않아 2021년 2월 11일 '관측 데이터'는 사용할 수 없다는 것은 이해가 되었습니다.


하지만 2021년 2월 11일 발전량을 예측하기 위한 모델을 2021년 2월 10일에 만든다면,


이 시점에 2020년 1월 1일 ~ 2020년 12월 31일 까지의 관측 데이터는 과거의 데이터로


2021년 2월 10일에 수집 가능한 '학습을 위한 데이터'인데


모델 학습시 해당 날짜의 발전량과 관측 데이터를 사용하면 data leakage에 해당하는지 궁금합니다.


감사합니다.



로그인이 필요합니다
0 / 1000
DACON.Dobby
2021.05.12 14:47

안녕하세요.
우선 2021년 2월 1일 ~ 2021년 2월 28일은 public 평가 기간이고 private 평가는 2021년 6월 9일 ~ 2021년 7월 8일까지입니다.
평가 기간 이전에 수집 가능한 데이터는 관측 데이터일지라도 사용이 가능합니다.
private 평가는 해당 일자가 되기 전에 제출을 해야하며 private 기간 추론이 가능한가 불가능한가를 기준으로 data leakage를 따지고 있습니다.
감사합니다.

anonymous
작성자
2021.05.12 15:06

데이터 시점에 대해 이해하기 어려운 부분이 있었는데 궁금증이 해결된 것 같습니다.
답변 감사합니다!