서두르세요! "데이스쿨 40% 할인" 12월 2일까지!
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
전력사용량 예측 AI 경진대회
다들 cross validation 어떻게 하시나요?
안녕하세요, cross validation에 대한 질문 하나 드립니다.
처음에는 단순히 주어진 데이터가 시계열 데이터이니, TimeSeriesSplit을 사용해야겠다고 생각했는데,
생각해 보니, 이번 대회는 t시점 이전의 데이터만으로 t시점 이후의 값을 구하는 게 아니라, t시점 이후의 데이터(시간정보와 기상예보)를 가지고 t시점 이후의 값을 mapping하는 모델을 만들어야 하더라구요.
timeseriessplit을 사용해야 하는지 일반 kfold split을 사용해야 하는지 여쭙고 싶습니다.
좋은 의견 감사합니다! 최종 제출물을 선택할 때 cv score를 보고 결정할지, public score를 보고 결정할지도 고민이네요ㅎㅎ
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
둘 다 상관은 없겠지만, 붙어있는 한 주를 예측해야하는 상황에서
가장 많은 정보를 가지고 있는 마지막 한 주 데이터를 validation으로 활용하기에는 아깝지 않을까요?
저는 kfolds를 썼습니다.