제주 특산물 가격 예측 AI 경진대회

분석 전략 설정을 위한 몇가지 포인트

2023.11.05 22:34 1,814 Views

지난 글에 이어서 모두 함께 고민해 볼 만한 몇 가지 포인트를 공유합니다.


1. 어떤 모형을 쓸 것인가?

시계열 문제에서 시계열 모형을 쓰는 것이 당연한 것은 아닙니다.

(실제로 저는 앞선 시계열 대회에서 Tree 기반의 모형을 써서 꽤 좋은 결과를 얻기도 했습니다.)

물론 앞선 대화의 내용이나 지금 상위권의 과거 이력을 보면 왠지 딥러닝 기반의 시계열 모형이 대세인 것 같긴 합니다.


저는 딥러닝은 이제 조금 배우고 있어서 서툴러서 익숙한 Tree 기반의 알고리즘들로 다양한 시도를 하고 있습니다.

아직은 스코어가 그닥이지만 충분히 개선될 여지는 있는데요, Tree 기반의 알고리즘으로 시계열을 모방하기 위해서는 다양한 shift(lead, lag) 전략이 필요해 보입니다.


상위권 분들이 팀을 이루면 (그리고 계획대로 tree 모형이 잘 먹히면!) 어쩌면 복불복으로 10등 이내는 가능할 것 같다는 희망회로를 돌립니다.

그럼 예측 정확성(50점)은 조금 밀리더라도 설명이 편하고 직관적인 tree 모형의 특성상 예측 유의성(10점)이나 인사이트(20점)에서 충분히 만회할 수 있을 것이구요.



2. 후반부 스코어는 어떨까?

데이터를 봐도 한 주 한 주 특산물 가격이 크게 바뀝니다.

현재 public 스코어는 전체 평가 기간 4주(28일) 중 첫 열흘이 첫 2주가 평가 대상입니다.  

누구나 알고 있는 일요일 ->0을 고려하면 전체 24일 중 12일인데요, 아무래도 가까운 날짜는 맞히기가 수월합니다.

후반부 16일에 따라 스코어가 크게 흔들릴 수 있다고 생각하고, 활용한 모형의 특성에 영향을 받을 것 같네요.


3. price=0 처리를 어떻게 할까?

골치 아픈 corporation/item 조합이 있습니다. 팔거면 맨날 팔면 좋은데, 어쩌다 한번 판 건들이 있습니다.

예를 들어 전년 동기 28일 중에 딱 하루 10000원에 팔린 상품이 있다고 합시다.

나머지 기간에는 팔린 적이 없으니까 price=0으로 들어와 있는데요, 이번 기간의 예측에서는 저 "하루만 10000원"이라는 정보를 어떻게 처리하고 활용할 것인가에 따라 미묘한 스코어 변화가 있습니다.


4. 감귤을 어떻게 잡을까?

앞선 글에서도 썼지만, 결국 스코어는 감귤(TG)에 달려 있습니다.

무엇보다 감귤의 일반적인 가격이 다른 특산물보다 높습니다. 그리고 시기의 특성이 감귤이 끝물이라, 감귤 가격이 생각보다 변동이 큽니다.

그래서 인지 item별로 따로 RMSE계산해봐도 감귤이 제일 높습니다.




지난번 글에서 댓글이 많이 달려서 행복했습니다ㅎㅎ

정보 교류가 없고 폐쇄적인 데이터 공모전의 특성상! 남의 스코어만 알지 뭘 어떻게 했는지 파악하기가 어려운데요,

댓글들 덕분에 그래도 많은 정보를 얻을 수 있었네요.


이번에도 다양한 의견과 생각을 부탁합니다:)






로그인이 필요합니다
0 / 1000
EISLab_이희원
2023.11.06 01:01

저도 2번 내용에 동의합니다.
이전의 LG Aimers 대회처럼 랜덤 샘플링하여 일부 데이터셋을 Public 으로 설정한 것이 아닌 시간 순으로 샘플링하였기에,
학습한 모델이 예측 초기에만 정확하게 예측하고 후반에는 오차가 심하다면, Private 랭킹이 급락할 수 있습니다.

저는 지금 딥러닝 기반 모델로 학습하고 있는데 Validation RMSE는 1000점 정도 나오지만, submit을 하면 600점대가 됩니다.

아마도, 이번 대회에서는 28일 전체 기간에 대해 적절하게 예측할 수 있도록 모델을 설계해야 할 것 같습니다.
Public score에 대해 큰 의미를 두면 안 될것 같습니다.

Statistics
2023.11.06 10:48

답글 감사합니다ㅎㅎ
제가 물어볼 곳이 없어서, 궁금한 것 하나만 가볍게 물어봐도 될까요?

고전적인 시계열 모형에서 현재 시점 n 기준  n+2 시점을 예측할 때, n+1에 대한 예측 값을 활용합니다.
가까운 미래의 예측 값을 활용해서  더 먼 미래를 예측할 때 활용하는 것이 딥러닝 기반의 모델에서도 일반적인가요?
아니면 n+k 시점을 예측할 때  k에 상관없이 n 시점까지의 정보만 활용하나요?

meister1378
2023.11.06 12:10

 저도 Validation이 RMSE는 낮게 나오는데 submit은 높게 나오던 이유가 있었네요

EISLab_이희원
2023.11.06 14:00

제가 아는 딥러닝 기반 시계열 예측 모델에서는 k에 상관없이 n시점까지의 정보만을 활용하더라구요.

Statistics
2023.11.07 08:56

감사합니다:)

DACON.SeungYoon
2023.11.06 10:50

안녕하세요, Statistics 님
활발한 의견 공유로 보다 발전된 솔루션 도출에 기여해주심에 감사드립니다. 
다만 Public Score 측정방법에 있어 오타가 있어 공지드립니다.
Public Score는 14일에 대한 측정 결과이며 이와 관련하여 공지를 기재했습니다.
https://dacon.io/competitions/official/236176/talkboard/410044?page=1&dtype=recent
대회에 대한 깊은 관심과 활발한 의견 공유에 다시 한 번 감사의 말씀 드립니다.
감사합니다. 

Statistics
2023.11.06 10:49

열흘은 애매하다고 생각했는데, 오타였네요! 
확인 감사합니다.

NN_is_all_you_need
2023.11.07 09:59

대부분 시계열 대회에서 발생하는 일이지만 Private 리더보드에서 순위 대격변이 일어날 수도 있을 것 같네요