팔당댐 홍수 안전운영에 따른 한강 수위예측 AI 경진대회

test 데이터 결측치 처리 관련 질문드립니다.

2022.08.05 17:06 3,547 Views

Data leakage 해당하는 경우에 보면

  • test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용

이 부분이 있는데 이 부분에 관하여 질문을 드리고 싶습니다.


제가 결측치 처리를 해당 년도 달의 평균으로 처리하고 있습니다.

그런데, 저 부분에 따르면,

test data인 2022-06 ~ 2022-07까지의 X데이터의 결측치 처리하는 과정에서

2022-06의 결측치를 2022-06의 평균으로, 2022-07의 결측치는 2022-07의 평균으로 대체하면 안된다는 것인가요?

Login Required
0 / 1000
DACON.tuna
2022.08.05 23:35

안녕하세요,

말씀해주신 결측치 처리 방법은 Data Leakage에 해당합니다.

예를들어 6월 10일 17시 00분의 수위를 예측한다고 했을 때, 말씀해주신 결측치 처리방법을 활용하면 추론하고자 하는 기간 이후의 데이터를 활용한 것이 됩니다.

감사합니다.

Previous
count 는 float64 인가?
Competition - 서울시 따릉이 대여량 예측 경진대회
Likes 6
Views 3,526
Comments 1
3yr ago
Current
test 데이터 결측치 처리 관련 질문드립니다.
Competition - 팔당댐 홍수 안전운영에 따른 한강 수위예측 AI 경진대회
Likes 7
Views 3,547
Comments 1
3yr ago
Next
validation score vs LB score
Competition - 자율주행 센서의 안테나 성능 예측 AI 경진대회
Likes 7
Views 2,438
Comments 6
3yr ago