데이터·AI를 활용한 물가 예측 경진대회 : 농산물 가격을 중심으로

사고과정에 대해서 의견을 여쭙고 싶습니다.

2024.10.12 11:58 1,091 조회

저는 본 대회에서 이런식으로 사고과정을 거친것 같은데 다들 비슷하신지 궁금합니다.

(사실 어떤 대회를 하던 이런  사고를 기반으로 진행하는 것 같긴합니다.)


---

1. 데이터 타입과 관련하여…

데이터는 3가지 타입이 있다.

  • 시점과 target이 있는 데이터 (base)
  • 시점과 도매시장 가격이 있는 데이터 (meta_a)
  • 시점과 공판장의 가격이 있는 데이터 (meta_b)

여기서 데이터 사용 선택지는 4가지로 갈라진다.

  • base
  • base + meta_a
  • base + meta_b
  • base + meta_a + meta_b


2. 예측하는 품목과 관련하여...

다양한 품목과 그에 따른 품종이 있다.

우리가 예측해야 하는 target은 매우 정확하게 설정되어 있다.

예시로

  • 감자 - 감자 수미 - 20kg 상자 - 상을 예측할려고 할때

이와 같이 다양한 데이터를 활용할 수도 있다.

그렇다면 여기서 선택지는 약 3가지로 갈라진다.

  • 예측하는 품목-품종-등급의 데이터만 활용한다.
  • 예측하는 품목-품종의 데이터만 활용한다.
  • 예측하는 품목의 모든 데이터를 활용한다.


3. 모델과 관련하여...

본 대회는 시계열 기반의 대회이지만 classic 한 시계열 모델을 사용하는데에 제한되는 부분이 있다. 예측하는 시계열 데이터가 연속적인것은 확실하지만, 어떤 시점인지는 알 수 없기 때문이다.

그렇기에 본인은 2가지 선택지가 생각났다.

  • N개를 넣어서 1가지를 예측하고 이 예측값을 다시 넣어서 3개를 예측하는 모델 (t+1,t+2,t+3)
  • N개를 넣어서 3가지를 한번에 예측하는 모델
  • 이 경우에는 meta 데이터를 활용하기 더 편리해 보인다.

---

이렇게 [데이터 타입 관련] / [품목 관련] / [모델 관련]의 선택지 정도가 보였다.

이는 4 * 3 * 2 의 실험을 통해 최적의 결과물을 도출하면 되지 않을까 라는 생각을 하고 작업을 진행했다.

---

모델의 디테일에서도 다양한 선택지가 있지만, 크게 보면 이정도 선택지를 파악하고 이것들을 확인하는 것이 맞을까요?

혹시 생각하신 선택지들 중에 제가 놓진 부분이 있는지 궁금합니다.


로그인이 필요합니다
0 / 1000
JunKyu
2024.10.12 19:56

혹시 모델 사용에 대한 제한이 있는 부분일까요? 

jackmappotion
2024.10.13 09:28

음 그런것은 아닙니다

fvplfvociac
2024.10.13 21:20

엄밀히 생각하면 rnn 계열 time-series가 과연 정답일지는 잘 모르겠습니다 이런 좀 특수한 상황때문에 트리계열로 접근하신분들 꽤 있을 것 같습니다 

jackmappotion
2024.10.14 08:58

네 저도 클래식한 시계열 모델을 사용하기는 조금 어려운 상황같아서 트리계열로 대회 진행하였습니다 ㅎㅎ...