데이터·AI를 활용한 물가 예측 경진대회 : 농산물 가격을 중심으로

알고리즘 | 농산물 | 정형 | 시계열 | 회귀 | NMAE

  • moneyIcon 상금 5,800만 원
  • 1,792명 마감

 

데이터 및 도메인 관련 FAQ 정리

2024.10.08 10:44 1,070 조회

안녕하세요, 참가자 여러분!

현재 1차 예선 기간이 중반을 넘어가고 있는 시점에서, 그동안 자주 문의해주신 데이터 및 도메인 관련 FAQ를 정리하여 안내드립니다.


[데이터 사용 및 예측 관련 FAQ]

1. 데이터 사용 범위

   - 전국도매, 산지공판장 데이터 모두 추론에 사용 가능합니다.

   - 제공하는 Meta 데이터는 선택적으로 사용 가능한 데이터입니다.

2. 예측 대상

   - 제시된 품목(품종, 등급 등)에 대한 예측값만 필요합니다.

   - 기준에 해당하는 품목-품종-거래단위-등급의 예측 평균 가격(T+1순, T+2순, T+3순)을 제출해 주세요.

3. 특정 품목 처리

   - 사과(홍로, 후지)의 경우, 두 품종을 같은 것으로 간주하여 처리합니다.

4. META 데이터 활용

   - META 데이터에는 일부 품종이 없을 수 있습니다.

   - META 데이터 사용 여부, 품종 연결 방법, 누락 데이터 처리는 참가자가 자유롭게 결정할 수 있습니다.

5. TEST 데이터 사용

   - 각 TEST 파일(예: TEST_05)은 해당하는 예측(TEST_05+1순, +2순, +3순)에만 사용해야 합니다.

   - 다른 TEST 파일 사용 시 Data Leakage에 해당됩니다.

6. 외부 데이터 사용

   - 1차 예선에서는 외부 데이터 사용이 불가능합니다.


[데이터 도메인 관련 FAQ]

1. 전국도매 데이터 해석

  • 고가(20%), 중가(60%), 저가(20%)는 경매 단가 기준 구간별 평균값입니다.
  • 고가: 상위 20% 미만, 중가: 상위 20%~80% 미만, 저가: 상위 80% 이상

2. 평년 평균가격 산출

  • 평년값은 5년간(금년 제외) 최대, 최소값을 제외한 3개년의 평균값
  • 경우에 따라, 산출 조건이 안되어 값이 없는 경우가 있습니다.

3. 가격 데이터 특성

  • 제공된 데이터는 모두 순단위(10일) 데이터입니다.
  • 일일 단위의 개별 가격은 별도로 산정하지 않습니다.

4. 전순, 전달, 전년 평균가격 의미

  • 전순: 이전 10일 기간의 평균값
  • 전달: 전월 같은 순의 평균값
  • 전년: 전년 같은 월, 같은 순의 평균값

5. 산지공판장의 등급명

  • 산지공판장의 등급명은 품목에따라 시장에서 정한 규칙이 다르기 때문에 일괄 적용이 어렵습니다. '등급명'의 서열은 같은 조건(날짜, 시장, 품목)의 경우 평균가(원/kg)로 추정할 수 있습니다.

6. 경매 건수와 반입량

  • 제공되는 데이터는 순단위(10일) 데이터로서 시장, 품목, 품종 기준으로 10일 간 경매데이터로부터 산출되었으며, 총반입량(kg)은 총합(SUM)으로 산출되었습니다.
  • 전국도매시장 데이터의 '경매건수 하나당 경매되는 반입량(kg)'은 '거래단위' 정보가 없으므로 산출이 불가능합니다.



감사합니다.

데이콘 드림