팔당댐 홍수 안전운영에 따른 한강 수위예측 AI 경진대회

종속변수 외부데이터 사용 문의

2022.08.22 16:39 4,027 조회

전통적인 시계열 모델을 사용하려니 종속변수(수위) 자체의 과거 데이터를 독립변수로 사용하게 되는데 Data Leakage, 외부 데이터 등 이슈에 문제가 되지 않는지 확실히 하고자 문의 드립니다.

우선, 2022-05-31 23:50까지 데이터로 학습한 뒤 2022-06-01 00:00 수위를 예측했다면 이 종속변수 예측값을 다시 사용하여 2022-06-01 00:10 수위를 예측하는 것은 가능할 것이라고 생각됩니다.

그렇다면, 외부데이터로 수집한 실제 2022-06-01 00:00 데이터를 사용하여 2022-06-01 00:10 수위를 예측하는 것도 문제가 없는지 문의 드립니다. (학습에는 실제 데이터 사용x)

이 답변을 보면 가능할 것이라고 생각되는데 그래도 종속변수 정답 데이터이기 때문에 다시 한번 문의 드립니다.  

로그인이 필요합니다
0 / 1000
solsol123
2022.08.25 14:55

많은 분들이 좋아요 눌러주셔서 답변 공유 드리고자 합니다. 
"말씀해주신 것처럼 외부데이터로 실제 수집한 데이터 역시 사용 가능합니다. 다만, data leakage 규칙을 위반하지 않도록 주의하여 사용해 주시기 바랍니다." 그리고 "수집하신 수위 데이터 또한 규칙을 준수하시어 추론에 활용하실 수 있습니다." 라고 답변 받았습니다. 
종속변수인 수위 데이터도 다른 외부 데이터와 마찬가지로 추론하고자 하는 시간대의 10분 전 데이터는 사용 가능하다고 보면 될 것 같습니다.