주차수요 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 교통 | MAE

  • moneyIcon 상금 : 총 1,300만원
  • 2,217명 마감

 

Data Leakage

작성자 비공개
2021.06.18 12:10 1,852 조회

안녕하세요.


데이터 분석 입문자입니다.


test dataset을 submission형태에 맞추기 위해 150개의 단지코드 샘플로 변경할 때

같은 단지코드 내에 있는 데이터들끼리 값을 조합해도 상관없는 건가요?


단순하게 test 데이터는 샘플별로 독립적으로 다뤄야한다는 생각이 있었는데

해당 대회는 특별한 경우라 그렇지 않아도 되는 것인지 궁금합니다.

로그인이 필요합니다
0 / 1000
DACONIO
2021.12.21 17:11

안녕하세요. 작성자님

같은 단지코드의 데이터는 단지 1개의 데이터로 해당 단지의 주차 수요를 예측하기위해 결합하는 것은 data leakage가 아닙니다.

감사합니다.
데이콘 드림.

anonymous
작성자
2021.06.18 14:54

그렇다면  같은 단지코드 데이터에서 평균을 내서 사용한다면 그건 leakage인가요?

DACONIO
2021.06.18 15:37

같은 단지코드 데이터에서 평균을 내서 사용하는 것은 leakage가 아닙니다.
감사합니다.

anonymous
작성자
2021.06.18 15:40

네 알겠습니다 감사합니다.