전력사용량 예측 AI 경진대회

다들 cross validation 어떻게 하시나요?

2021.05.27 12:44 4,765 조회

안녕하세요, cross validation에 대한 질문 하나 드립니다.


처음에는 단순히 주어진 데이터가 시계열 데이터이니, TimeSeriesSplit을 사용해야겠다고 생각했는데,


생각해 보니, 이번 대회는 t시점 이전의 데이터만으로 t시점 이후의 값을 구하는 게 아니라, t시점 이후의 데이터(시간정보와 기상예보)를 가지고 t시점 이후의 값을 mapping하는 모델을 만들어야 하더라구요.


timeseriessplit을 사용해야 하는지 일반 kfold split을 사용해야 하는지 여쭙고 싶습니다.

로그인이 필요합니다
0 / 1000
Statistics
2021.05.28 15:55

둘 다 상관은 없겠지만, 붙어있는 한 주를 예측해야하는 상황에서 
가장 많은 정보를 가지고 있는 마지막 한 주 데이터를 validation으로 활용하기에는 아깝지 않을까요?
저는 kfolds를 썼습니다. 

동준이
2021.05.28 21:10

좋은 의견 감사합니다! 최종 제출물을 선택할 때 cv score를 보고 결정할지, public score를 보고 결정할지도 고민이네요ㅎㅎ