태양광 발전량 예측 AI 경진대회

Data Leakage관련 질문드립니다

2020.12.10 08:17 5,018 Views

안녕하세요 :)

Data Leakage관련해서 질문드립니다.


대회안내 -> 규칙 -> 5.유의사항에 "모델 학습에서 검증 혹은 평가 데이터셋 활용(Data Leakage & Pseudo Labeling)시 실격"이라는 규칙이 있습니다.


반면 대회안내 -> 데이터 ->  test..csv 설명은 "각 파일의 7일(Day 0~ Day6) 동안의 데이터 전체 혹은 일부를 사용하여, 향후 2일(Day7 ~ Day8) 동안의 30분 간격의 발전량(TARGET)을 예측 (1일당 48개씩 총 96개 타임스텝에 대한 예측)"으로 명시가 되어있습니다. 더하여 대회 안내의 주제와 대회 설명을 보아도 Test Data에 속해있는 데이터를 활용해야 할 것 같습니다.


Test Data의 Day0 ~ Day6까지의 데이터는 그 지역의 Train Data라고 판단해도 괜찮을까요?


이 경우가 안된다면, 코드 공유에 제가 작성한 글은 train과 test data를 concat해서 day7과 day8을 concat data의 평균으로 판단하여 예측하기 때문에, test data의 활용이 되어 문제가 될 것 같습니다. 문제가 된다면 더 많은 혼동을 주기 전에 글을 삭제하려 합니다!


  • 해당 코드입니다.
  • test file에 있는 data를 하나씩 불러와 train과 concat하고, Hour과 Min을 기준으로 Groupby해서 Mean을 적용했습니다.

로그인이 필요합니다
0 / 1000
DACONIO
2020.12.10 10:28

안녕하세요. 데이콘입니다.
먼저 이번 대회에 관심을 가져주시고 적극적으로 참여해주셔서 감사드립니다.
이번 대회에서 다루고자 하는 상황은 다음과 같습니다.
이전에 기록된 기상 정보와 태양광 발전량 값을 이용하여 아직 오지 않은 미래에 대해 태양광 발전량이 어떻게 될지 예측을 하는 상황입니다.
여기서 타겟 값이 발전량 값이기 때문에 결국에는 기상 데이터로 태양광 발전량 값을 예측하는 문제가 됩니다. (본 문제에서는 좀 더 정확하게 quantile 회귀 문제입니다.)
즉 모델을 만들고 나면, 최근 최장 7일간의 기상 데이터를 입력해주면 내일과 모레의 태양광 발전량이 나와야 합니다.
최장 7일은 저희가 제한으로 걸어둔 부분이며 꼭 7일 동안의 모든 기상 데이터를 쓰지 않으셔도 됩니다.
짧게는 하루, 길게는 이틀, 혹은 더 짧게는 반나절 등 최장 7일 이내라면 자유롭게 기상데이터를 입력으로 사용하실 수 있습니다.
질문해주신, Test 데이터를 Train 데이터로 사용하는 것은 불가능합니다.
이 외에 또 다른 궁금한 점 있으시면 언제든지 질문해주세요.
감사합니다.

Jay Hong
2020.12.10 10:31

네! 감사합니다!!
업로드한 코드는 삭제하겠습니다 :)
감사합니다!

SDSTony
2020.12.11 10:16

1. "이전에 기록된 기상 정보와 태양광 발전량 값을 이용하여 아직 오지 않은 미래에 대해 태양광 발전량이 어떻게 될지 예측을 하는 상황입니다." -> 과거 기상 정보 & 태양광 발전량 활용해 미래 태양광 발전량 예측
2. "결국에는 기상 데이터로 태양광 발전량 값을 예측하는 문제가 됩니다."
-> 과거 기상 정보 활용해 미래 태양광 발전량 예측



SDSTony
2020.12.11 10:16

답변주신 1번에서는 과거 기상 정보 & 태양광 발전량을 사용할 수 있다고 되어있고, 2번에서는 과거 기상 정보만 활용할 수 있다고 되어 있어 정확히 어떤 task인지 헷갈립니다. 
제공된 데이터 형태로 봤을 때 과거 태양광 발전량도 모델 input값으로 활용 가능할 것 같은데, 확인 부탁드립니다~