팔당댐 홍수 안전운영에 따른 한강 수위예측 AI 경진대회

test 데이터 결측치 처리 관련 질문드립니다.

2022.08.05 17:06 1,627 Views

Data leakage 해당하는 경우에 보면

  • test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용

이 부분이 있는데 이 부분에 관하여 질문을 드리고 싶습니다.


제가 결측치 처리를 해당 년도 달의 평균으로 처리하고 있습니다.

그런데, 저 부분에 따르면,

test data인 2022-06 ~ 2022-07까지의 X데이터의 결측치 처리하는 과정에서

2022-06의 결측치를 2022-06의 평균으로, 2022-07의 결측치는 2022-07의 평균으로 대체하면 안된다는 것인가요?

로그인이 필요합니다
0 / 1000
DACON.tuna
2022.08.05 23:35

안녕하세요,

말씀해주신 결측치 처리 방법은 Data Leakage에 해당합니다.

예를들어 6월 10일 17시 00분의 수위를 예측한다고 했을 때, 말씀해주신 결측치 처리방법을 활용하면 추론하고자 하는 기간 이후의 데이터를 활용한 것이 됩니다.

감사합니다.

이전 글
count 는 float64 인가?
Competition - 서울시 따릉이 대여량 예측 경진대회
Likes 6
Views 1,632
Comments 1
2년 전
현재 글
test 데이터 결측치 처리 관련 질문드립니다.
Competition - 팔당댐 홍수 안전운영에 따른 한강 수위예측 AI 경진대회
Likes 7
Views 1,627
Comments 1
2년 전
다음 글
validation score vs LB score
Competition - 자율주행 센서의 안테나 성능 예측 AI 경진대회
Likes 7
Views 1,430
Comments 6
2년 전