분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
data leakage 질문
제가 이해한 바로는 예측일 전날 자정까지 확인이 가능한 데이터만 사용 가능하다고 알고 있습니다.
즉, 예측일에 해당하는 기상 관측 데이터는 사용할 수 없다는 의미로 이해했습니다.
(예를 들어 2월 5일 발전량을 예측해야된다면 2월 4일까지 확인 가능한 데이터만 사용 가능, 2월 5일 기상관측 데이터는 사용불가)
궁금한점이 있는데 위 내용의 범위가 학습과 추론 둘다 해당되나요?
예를 들어 학습할 때에는 예측 당일에 해당되는 기상 관측 데이터를 사용하고(feature engineering, pre-trained model 용도 등)
추론에서는 예보 데이터만 사용한다면 data leakage에 해당되는지 궁금합니다.
감사합니다.
대회 규칙 4. 외부 데이터 및 사전학습 모델에서 첫번째 항목인
- 예측 전날 자정까지 확인 가능한 데이터만 학습 및 추론 과정에서 사용 가능
으로 되어 있어 궁금해서 문의드렸습니다.
해당 규칙은 실제 적용이 가능한가를 기준으로 작성하였습니다.
작성자님께서 말씀해주신 방법은 해당 안내와 상충되나 실제 상황에 적용이 가능한 부분입니다.
이에 해당 방법 사용은 가능합니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요.
학습 과정에서는 관측 데이터를 추론 과정에서는 예보데이터를 사용하는 것은 data leakage에 해당하지 않습니다.
감사합니다.
데이콘 드림