<2차 예선> 데이터·AI를 활용한 물가 예측 경진대회 : 농산물 가격을 중심으로

Algorithm | Agricultural Products | Tabular | Time-series | Regression | CPU Inference Time | NMAE

  • moneyIcon Prize : 5,800만원
  • 50 Users Completed
Closed

 

test data활용 관련 질문입니다.

2024.10.18 19:08 438 Views

수출입이나 물가지수 데이터 같은 경우에는 test sample에따라 데이터가 나뉘어져있지 않은데,

수출입이나 물가지수 데이터에 대해서, 예측시점 이전 3달의 데이터만 사용해야하는 건가요, 아니면 이전 시점 데이터들을 전부 사용할 수 있는 건가요?

Login Required
0 / 1000
DACON.GM
2024.10.21 09:09

각 TEST 샘플들은 예측 시점으로부터 3개월 이전까지의 데이터만 존재하므로 동일하게 맞춰 사용하시면 되겠습니다. 

KKYU
2024.10.21 11:41

그럼 가령 TEST_13이 2024 1월 ~ 3월 까지고 예측해야 하는 것이 4월 상,중,하순이라면, 
1). _01, _02 처럼 _N으로 끝나는 테스트 데이터의 경우, 2023년 1월 ~ 2023년 12월까지의 데이터를 가지고 있는 다른 테스트 데이터를 사용해서는 안되고, 오직 동일한 _N만 사용해야 하며, 물가지수, 생산지수 같은 데이터는 2023 12월까지 쓸 수 있단 건가요? 

2). 아니면 _01, _02로 끝나는 테스트 데이터 또한 2023 12월까지 데이터는 사용할 수 있단 것인가요? 

만약 1)의 케이스가 맞다면 외부에서 농산물 가격 데이터를 가져와 사용한다면 2023년 12월까지 사용 가능한가요?

DACON.GM
2024.10.21 11:44

각 TEST 샘플 내에 시점 T는 식별화되어 있으나, 다른 TEST 샘플은 몇개가, 어떤 시점의 입력 데이터가 들어올지 모른다는 가정하에 진행해야합니다.
즉, TEST_01 샘플에 대해서 추론하는 경우에는 TEST_01에서 활용가능한 시점 데이터만 사용가능합니다.
이는 외부데이터, 수출입, 물가지수 등 모든 데이터도 동일하게 적용됩니다.

KKYU
2024.10.21 12:07

넵 감사합니다!
1. 말씀해주신 대로라면 식별화됐기에 시점을 안다는 차이만 있을 뿐이지, 테스트 데이터 사용 기조는 1차 예선과 동일하다고 보면 되는 것이 맞고
(TEST_N 샘플이 추론 대상 데이터라면 그 범위 전후는 사용불가 오직 TEST_N만), 상중하 순이 없는 데이터도 동일하게 해당 범위 안에 들어오는 데이터만 사용해야 하는 것이 맞을까요? 

2. 어디선가 읽은 것 같은데 기억이 나지 않아 다시 질문 드립니다. 상중하순이 없이 월로만 처리된 데이터의 경우(물가지수), T가 9월 상순이고 예측값이 9월 중순~10월 상순이라면 해당 데이터는 8월까지 쓰는 것이 맞을까요 아니면 9월도 사용해도 괜찮은가요?  

DACON.GM
2024.10.21 12:11

1. 네 정확하게 이해해주셨습니다. 1차 예선과 다르게 2차 예선에서는 시점을 식별하여 제공드린 이유는 외부데이터를 활용하실 수 있게 하기 위함입니다.
이외의 테스트 데이터의 사용 기조는 1차 예선과 동일합니다.

2. 현재 시점이 9월 상순이라면, 월 단위로 측정된 데이터의 경우에는 8월까지의 데이터만 활용하실 수 있습니다. 왜냐하면 9월 데이터에는 9월 중순, 하순의 정보도 포함되어 있기 때문입니다.

KKYU
2024.10.21 12:16

넵 빠른 답변 감사합니다. 유의하면서 참여하도록 하겠습니다!