주차수요 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 교통 | MAE

  • moneyIcon Prize : 총 1,300만원
  • 2,224명 마감

 

Data leakage?

작성자 비공개
2021.07.28 20:44 665 Views

왜 test 데이터 안에서 test 통계값(최빈값,평균 등)으로 null값을 처리하는 것이 data leakage 문제가 되는거죠..?

그러면 test데이터에서 추가적인 변수를 생성할때도 train 데이터를 기준으로 만들어야되는 건가요?

로그인이 필요합니다
0 / 1000
DACONIO
2021.07.29 10:49

안녕하세요.
test 데이터 각 단지는 독립적인 단지들입니다.
train 데이터를 이용해 만든 결과를 새로운 단지 설계에 활용하였을 때
경진대회와 달리 다른 test 데이터가 없기에 사용 할 수 없는 방법입니다.
test 데이터들의 통계치를 이용한다는 것은 추론 시점에 획득 불가능한 데이터 사용에 해당하여 data leakage가 됩니다.
감사합니다.