분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
데이터의 시간 간격에 대한 질문입니다.
본대회는 시계열 데이터인데,
train 이 7일간의 데이터, test가 1일간의 데이터로 알고 있습니다만,
test 데이터 갯수로 train 갯수를 나누면, 6.3일정도 되네요.
우선, 각각의 데이터는 24시간을 등간격으로 나뉘어진 데이터인지도 궁금하며,
위의 기준으로 보았을때, train/test간 누락된 데이터가 존재하는 것인지 차이가 무엇인지 궁금합니다.
네 답변 감사합니다. 내용상 이해가되어 2번항목은 무시하셔도 될것 같습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요, basslibrary 님
우선 클릭 로그의 갯수의 경우, 일간 차이가 존재할 수 있음을 알려드립니다.
일간 데이터는 해당 일자의 전체 데이터에서 특정한 샘플링 방법으로 구성되었으며,
세부적인 샘플링 방법은 운영 방침상 공개하지 않는 점 양해 부탁드립니다.
따라서 문의사항에 대해서 답변을 드리자면:
1. 등간격
세부적인 샘플링 방법은 운영 방침상 공개하지 않고 있습니다.
이는 부정행위를 방지하기 위해서이니 basslibrary님의 양해 부탁드립니다.
2. train/test
누락된 데이터의 경우, 어떤 표현인지 정확한 이해가 어렵습니다.
세부적으로 설명해주시면 정확한 답변이 가능할 것 같습니다.
또한 train과 test의 경우 동일한 샘플링 방법을 통해 제작되었으며,
그 차이는 데이터 설명에 쓰여있듯 train은 1~7일간의 데이터이며,
test는 train 데이터의 다음날 하루 동안의 데이터입니다.
감사합니다.