웹 광고 클릭률 예측 AI 경진대회

데이터의 시간 간격에 대한 질문입니다.

2024.05.15 15:01 772 조회

본대회는 시계열 데이터인데,

train 이 7일간의 데이터, test가 1일간의 데이터로 알고 있습니다만,

test 데이터 갯수로 train 갯수를 나누면, 6.3일정도 되네요.


우선, 각각의 데이터는 24시간을 등간격으로 나뉘어진 데이터인지도 궁금하며,

위의 기준으로 보았을때, train/test간 누락된 데이터가 존재하는 것인지 차이가 무엇인지 궁금합니다.

로그인이 필요합니다
0 / 1000
DACON.SeungYoon
2024.05.16 10:05

안녕하세요, basslibrary 님
우선 클릭 로그의 갯수의 경우, 일간 차이가 존재할 수 있음을 알려드립니다. 
일간 데이터는 해당 일자의 전체 데이터에서 특정한 샘플링 방법으로 구성되었으며, 
세부적인 샘플링 방법은 운영 방침상 공개하지 않는 점 양해 부탁드립니다. 
따라서 문의사항에 대해서 답변을 드리자면:
1. 등간격
세부적인 샘플링 방법은 운영 방침상 공개하지 않고 있습니다.
이는 부정행위를 방지하기 위해서이니 basslibrary님의 양해 부탁드립니다. 
2. train/test
누락된 데이터의 경우, 어떤 표현인지 정확한 이해가 어렵습니다. 
세부적으로 설명해주시면 정확한 답변이 가능할 것 같습니다. 
또한 train과 test의 경우 동일한 샘플링 방법을 통해 제작되었으며, 
그 차이는 데이터 설명에 쓰여있듯 train은 1~7일간의 데이터이며, 
test는 train 데이터의 다음날 하루 동안의 데이터입니다.
감사합니다.

basslibrary
2024.05.16 11:12

네 답변 감사합니다. 내용상 이해가되어 2번항목은 무시하셔도 될것 같습니다.