분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
data leakage 질문
제가 이해한 바로는 예측일 전날 자정까지 확인이 가능한 데이터만 사용 가능하다고 알고 있습니다.
즉, 예측일에 해당하는 기상 관측 데이터는 사용할 수 없다는 의미로 이해했습니다.
(예를 들어 2월 5일 발전량을 예측해야된다면 2월 4일까지 확인 가능한 데이터만 사용 가능, 2월 5일 기상관측 데이터는 사용불가)
궁금한점이 있는데 위 내용의 범위가 학습과 추론 둘다 해당되나요?
예를 들어 학습할 때에는 예측 당일에 해당되는 기상 관측 데이터를 사용하고(feature engineering, pre-trained model 용도 등)
추론에서는 예보 데이터만 사용한다면 data leakage에 해당되는지 궁금합니다.
감사합니다.
대회 규칙 4. 외부 데이터 및 사전학습 모델에서 첫번째 항목인
- 예측 전날 자정까지 확인 가능한 데이터만 학습 및 추론 과정에서 사용 가능
으로 되어 있어 궁금해서 문의드렸습니다.
해당 규칙은 실제 적용이 가능한가를 기준으로 작성하였습니다.
작성자님께서 말씀해주신 방법은 해당 안내와 상충되나 실제 상황에 적용이 가능한 부분입니다.
이에 해당 방법 사용은 가능합니다.
감사합니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요.
학습 과정에서는 관측 데이터를 추론 과정에서는 예보데이터를 사용하는 것은 data leakage에 해당하지 않습니다.
감사합니다.
데이콘 드림