분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
태양광 발전량 예측 AI 경진대회
Data Leakage관련 질문드립니다
안녕하세요 :)
Data Leakage관련해서 질문드립니다.
대회안내 -> 규칙 -> 5.유의사항에 "모델 학습에서 검증 혹은 평가 데이터셋 활용(Data Leakage & Pseudo Labeling)시 실격"이라는 규칙이 있습니다.
반면 대회안내 -> 데이터 -> test..csv 설명은 "각 파일의 7일(Day 0~ Day6) 동안의 데이터 전체 혹은 일부를 사용하여, 향후 2일(Day7 ~ Day8) 동안의 30분 간격의 발전량(TARGET)을 예측 (1일당 48개씩 총 96개 타임스텝에 대한 예측)"으로 명시가 되어있습니다. 더하여 대회 안내의 주제와 대회 설명을 보아도 Test Data에 속해있는 데이터를 활용해야 할 것 같습니다.
Test Data의 Day0 ~ Day6까지의 데이터는 그 지역의 Train Data라고 판단해도 괜찮을까요?
이 경우가 안된다면, 코드 공유에 제가 작성한 글은 train과 test data를 concat해서 day7과 day8을 concat data의 평균으로 판단하여 예측하기 때문에, test data의 활용이 되어 문제가 될 것 같습니다. 문제가 된다면 더 많은 혼동을 주기 전에 글을 삭제하려 합니다!
네! 감사합니다!!
업로드한 코드는 삭제하겠습니다 :)
감사합니다!
1. "이전에 기록된 기상 정보와 태양광 발전량 값을 이용하여 아직 오지 않은 미래에 대해 태양광 발전량이 어떻게 될지 예측을 하는 상황입니다." -> 과거 기상 정보 & 태양광 발전량 활용해 미래 태양광 발전량 예측
2. "결국에는 기상 데이터로 태양광 발전량 값을 예측하는 문제가 됩니다."
-> 과거 기상 정보 활용해 미래 태양광 발전량 예측
답변주신 1번에서는 과거 기상 정보 & 태양광 발전량을 사용할 수 있다고 되어있고, 2번에서는 과거 기상 정보만 활용할 수 있다고 되어 있어 정확히 어떤 task인지 헷갈립니다.
제공된 데이터 형태로 봤을 때 과거 태양광 발전량도 모델 input값으로 활용 가능할 것 같은데, 확인 부탁드립니다~
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요. 데이콘입니다.
먼저 이번 대회에 관심을 가져주시고 적극적으로 참여해주셔서 감사드립니다.
이번 대회에서 다루고자 하는 상황은 다음과 같습니다.
이전에 기록된 기상 정보와 태양광 발전량 값을 이용하여 아직 오지 않은 미래에 대해 태양광 발전량이 어떻게 될지 예측을 하는 상황입니다.
여기서 타겟 값이 발전량 값이기 때문에 결국에는 기상 데이터로 태양광 발전량 값을 예측하는 문제가 됩니다. (본 문제에서는 좀 더 정확하게 quantile 회귀 문제입니다.)
즉 모델을 만들고 나면, 최근 최장 7일간의 기상 데이터를 입력해주면 내일과 모레의 태양광 발전량이 나와야 합니다.
최장 7일은 저희가 제한으로 걸어둔 부분이며 꼭 7일 동안의 모든 기상 데이터를 쓰지 않으셔도 됩니다.
짧게는 하루, 길게는 이틀, 혹은 더 짧게는 반나절 등 최장 7일 이내라면 자유롭게 기상데이터를 입력으로 사용하실 수 있습니다.
질문해주신, Test 데이터를 Train 데이터로 사용하는 것은 불가능합니다.
이 외에 또 다른 궁금한 점 있으시면 언제든지 질문해주세요.
감사합니다.