커뮤니티 대회 교육

팔당댐 홍수 안전운영에 따른 한강 수위예측 AI 경진대회

test 데이터 결측치 처리 관련 질문드립니다.

2022.08.05 17:06 312 조회

Data leakage 해당하는 경우에 보면

  • test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용

이 부분이 있는데 이 부분에 관하여 질문을 드리고 싶습니다.


제가 결측치 처리를 해당 년도 달의 평균으로 처리하고 있습니다.

그런데, 저 부분에 따르면,

test data인 2022-06 ~ 2022-07까지의 X데이터의 결측치 처리하는 과정에서

2022-06의 결측치를 2022-06의 평균으로, 2022-07의 결측치는 2022-07의 평균으로 대체하면 안된다는 것인가요?

dacon.tuna
2022.08.05 23:35

안녕하세요,

말씀해주신 결측치 처리 방법은 Data Leakage에 해당합니다.

예를들어 6월 10일 17시 00분의 수위를 예측한다고 했을 때, 말씀해주신 결측치 처리방법을 활용하면 추론하고자 하는 기간 이후의 데이터를 활용한 것이 됩니다.

감사합니다.

로그인이 필요합니다
0 / 1000