팔당댐 홍수 안전운영에 따른 한강 수위예측 AI 경진대회

test 데이터 결측치 처리 관련 질문드립니다.

2022.08.05 17:06 1,608 조회

Data leakage 해당하는 경우에 보면

  • test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용

이 부분이 있는데 이 부분에 관하여 질문을 드리고 싶습니다.


제가 결측치 처리를 해당 년도 달의 평균으로 처리하고 있습니다.

그런데, 저 부분에 따르면,

test data인 2022-06 ~ 2022-07까지의 X데이터의 결측치 처리하는 과정에서

2022-06의 결측치를 2022-06의 평균으로, 2022-07의 결측치는 2022-07의 평균으로 대체하면 안된다는 것인가요?

로그인이 필요합니다
0 / 1000
DACON.tuna
2022.08.05 23:35

안녕하세요,

말씀해주신 결측치 처리 방법은 Data Leakage에 해당합니다.

예를들어 6월 10일 17시 00분의 수위를 예측한다고 했을 때, 말씀해주신 결측치 처리방법을 활용하면 추론하고자 하는 기간 이후의 데이터를 활용한 것이 됩니다.

감사합니다.