분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Data Leakage 관련 안내
안녕하세요 데이콘입니다.
이번 2023 전력사용량 예측 AI 경진대회에서 Data Leakage가 발생할 수 있는 경우에 대해 안내드립니다.
현재, 즉 예측시점은 2022.8.24 23:59:59로 설정됩니다.
그리고 참가자들은 2022.8.25부터 2022.8.31일까지의 전력사용량을 예측하게 됩니다.
따라서 2022.8.25 00:00:00부터 알 수 있는 특성을 활용할 경우, 이는 Data Leakage에 해당하며 규칙 위반 사유입니다.
그러니 2022.8.25 00:00:00부터 발생한 모든 사건을 알 수 없다고 가정하여 예측을 진행해주시길 바랍니다.
(이 경우, test.csv는 2022.8.25 00:00:00 이전에 제작된 예보 데이터이기 때문에 예측시점에서 활용가능합니다.)
감사합니다.
안녕하세요, 느아 님
해당 정보는 2022.8.24 23:59:59에 알 수 있는 정보이기 때문에
활용 가능하십니다.
감사합니다.
안녕하세요,
혹시 평가 세트에 건물 정보를 추가해서 평가하여도 괜찮은가요?
안녕하세요, 해시공 님
해당 방식은 feature engineering에 일종으로 판단되며,
얼마든지 사용 가능하십니다.
감사합니다.
training 시 2022.8.24 23:59:59 까지 데이터만 (training data) 사용 가능하고,
inference 시 2022.8.31 23:59:59 까지 데이터가 (training data + test data) 사용 가능 하다고 이해하면 되나요?
예를 들면, 2022.8.27 23 예측 시 2022.8.27 23 까지의 모든 데이터 (training data + test data)를 X로서 사용해도 문제가 없는건가요?
안녕하세요, 똥안 님
https://dacon.io/competitions/official/236125/talkboard/408916에 답변을 달아뒀으니
참고하시길 바랍니다.
감사합니다.
2022년 이전 년도의 8월 기후 데이터를 이용한 파생 변수 활용이 가능한가요?
안녕하세요, 봄여울 님
주어진 데이터를 제외한 외부데이터는 활용하실 수 없습니다.
감사합니다.
psudo labeling이 규정상 금지라고 하셨는데, 예측해야 하는 값인 전력소비량 외에 날씨, 습도정보를 예측한 데이터를 다시 학습에 활용하는 것도 해당하나요?(train.csv한정)
요일이나 휴무일 같은 날짜에 관련된 정보는 사용가능한가요?
ffill, bfill, interpolation 세가지 방법 모두 결측치 보간하는건 data leakage에 해당되는건가요?
안녕하세요.
해당 경진대회의 데이터 셋을 사용하여 연구 진행하여 논문을 작성하고 싶은데 가능할까요?
안녕하세요, jhs 님
주최측에 문의를 드렸습니다.
주최측 답변이 오면 바로 연락드리겠습니다.
감사합니다.
안녕하세요, jhs 님
주최측 문의 결과 해당 데이터는 연구 목적으로 사용하실 수 없다는 답변을 받았습니다.
감사합니다.
확인 감사드립니다 :)
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
2022년 8월 25일이후에는 휴일이 없다는 정보는 이용해도 괜찮나요?