분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
data leakage 관련 문의
안녕하세요.
data leakage 관련해 궁금한 점이 있어 문의드립니다.
본 대회 private 평가는 2021년 2월 1일 ~ 2021년 2월 28일 발전량을 예측하는 것입니다.
위에 첨부드린 사진의 댓글과 관련하여 '예측하기 위한 데이터'와 '학습하기 위한 데이터' 사용에 대해 궁금증이 있습니다.
2021년 2월 11일 발전량을 예측하기 위해서는 2021년 2월 10일까지 수집 가능한 '예측하기 위한 데이터'를 사용해야
data leakage에 해당하지 않아 2021년 2월 11일 '관측 데이터'는 사용할 수 없다는 것은 이해가 되었습니다.
하지만 2021년 2월 11일 발전량을 예측하기 위한 모델을 2021년 2월 10일에 만든다면,
이 시점에 2020년 1월 1일 ~ 2020년 12월 31일 까지의 관측 데이터는 과거의 데이터로
2021년 2월 10일에 수집 가능한 '학습을 위한 데이터'인데
모델 학습시 해당 날짜의 발전량과 관측 데이터를 사용하면 data leakage에 해당하는지 궁금합니다.
감사합니다.
데이터 시점에 대해 이해하기 어려운 부분이 있었는데 궁금증이 해결된 것 같습니다.
답변 감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요.
우선 2021년 2월 1일 ~ 2021년 2월 28일은 public 평가 기간이고 private 평가는 2021년 6월 9일 ~ 2021년 7월 8일까지입니다.
평가 기간 이전에 수집 가능한 데이터는 관측 데이터일지라도 사용이 가능합니다.
private 평가는 해당 일자가 되기 전에 제출을 해야하며 private 기간 추론이 가능한가 불가능한가를 기준으로 data leakage를 따지고 있습니다.
감사합니다.