팔당댐 홍수 안전운영에 따른 한강 수위예측 AI 경진대회

테스트 기간 결측치 처리 문의

2022.08.04 17:30 1,372 조회

안녕하세요 데이콘!


test기간에서 t시점의 결측치를 t시점의 다른 변수(target이 아닌)를 이용해 대체할 수 있을까요?

ex. 2022년 6월 10일 15:00시의 swl 결측치를 2022년 6월 10일 15:00시의 tototf값에 +1을 해서 대체한다.

로그인이 필요합니다
0 / 1000
DACON.tuna
2022.08.04 18:39

안녕하세요,

t시점의 결측치는 t시점의 데이터를 활용하여 보간할 수 없습니다.

감사합니다

익춘삼
2022.08.05 10:09

답변 감사합니다!

해당 내용과 관련하여 문의를 더 드리려고 합니다.

저수량과 공용량의 경우 더했을 때 항상 같은 값(총 저수량)이 나오게 됩니다. 이러한 경우, 동시점에서 저수량과 공용량 결측값 중 하나의 값만 채운다면 나머지 값은 자동적으로 채울 수 있습니다. 동시점이라는 이유만으로 이런 점 또한 활용할 수 없는지요?

그리고 feature를 파생할 때에도, 동시점의 데이터를 사용할 수 없는 건가요?
ex. t시점의 x1변수와 x2변수를 더해 x3변수를 생성한다.

DACON.tuna
2022.08.05 10:18

안녕하세요 익춘삼님!

결론부터 말씀드리면, 추론하고자 하는 기간과 동일한 기간의 모든 변수는 활용하실 수 없습니다.

대회의 취지는 현재로부터 10분 뒤의 수위를 예측하는 것입니다.
그럼 당연하게도 현재에서 10분 뒤의 정보는 모른다는 가정 하에 10분 뒤의 수위를 예측해야 합니다.
따라서 추론하고자 하는 기간과 동일한 시점의 데이터를 활용하실 수 없으며,사용하게 된다면  이는 Data Leakage 규칙 위반으로 실격 사유에 해당합니다.

자세한 사항은 "경진대회 유의 사항" 게시글에서 확인할 수 있습니다.
https://dacon.io/competitions/official/235949/talkboard/406536?page=1&dtype=recent

그럼 오늘도 즐거운 코딩 하시길 바랍니다 :)

감사합니다.

DACON.tuna
2022.08.05 10:20

다만, 같은 TEST 기간 내의 데이터라도 추론하고자 하는 시간 이전의 변수는 다음 추론에 활용하실 수 있습니다.