분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[DACON 답변 요청] Data leakage 문의
데이터에서 결측치를 어떻게 채우냐에 따라
모델의 성능이 많이 영향을 받아 중요할 것 같은데
data leakage 여부를 판단하는 데에
애매한 부분이 있어 문의드립니다.
안녕하세요, 데이콘입니다.
대회에서 주어진 train과 test set 내의 결측치를 미래 시점의 값으로 채우고 해당 데이터들로 훈련시키는 것은 data leakage에 해당하지 않습니다.
그러나 prediction할 때 사용되는 피쳐들에 미래 시점의 데이터가 들어가 과거 시점의 데이터를 예측하는 것은 data leakage에 해당됩니다.
즉, submission 파일에서 예측해야 하는 시간들의 값들을 예측하는 과정에서만 data leakage가 발생하지 않으면 됩니다.
예를 들어, 2018년 7월 1일부터 10일까지의 일간 전력 수요량을 예측할 때, 2018년 7월 1일자의 전력 수요량을 예측하기 위해 2018년 7월 1일부터 2018년 7월 7일까지의 평균 전력 수요량을 피쳐로 활용한다면 이를 data leakage로 간주합니다.
감사합니다.
데이콘팀 드림
피쳐뿐만 아니라 input으로 넣는 것에 대한 것도 위의 개념과 동일하게 적용됩니다.
train과 test set 내의 결측치를 미래 시점의 값으로 채우고 해당 데이터들로 훈련시키는 것은 data leakage에 해당하지 않습니다.
그러나 prediction할 때 사용되는 데이터에 미래 시점의 데이터가 들어가 과거 시점의 데이터를 예측하는 것은 data leakage에 해당됩니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
삭제된 댓글입니다