제주 특산물 가격 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 시계열 | 농업 | RMSE | 정성평가

  • moneyIcon 상금 : 400만원
  • 2,719명 마감

 

[private 4th] catboost + autogluon

2023.11.20 19:55 2,433 조회 language

colab에서 CPU로 catboost 모델을 학습한 후 T4 GPU로 런타임을 변경하여 autogluon 모델을 학습하였습니다.
catboost는 item, location별로 모델을 학습하였으며, autogluon은 item, location, corporation별로 데이터를 나누어 학습하였습니다.
따라서 두 모델의 데이터 전처리 방식에 약간의 차이가 있습니다.
정확도를 높이기 위해 두 모델의 예측 결과를 평균 내었고, EDA 결과 일요일에는 거래가 거의 일어나지 않으므로 예측 결과를 0으로 후처리 하였습니다.

public 기간에 대해 과적합 문제가 발생할 것을 어느 정도 예상하였으나 200점 가까이 차이가 나서 조금 놀랐네요...
약 한 달간 모두 수고하셨습니다. 좋은 대회를 열어주신 주최측 분들께도 감사의 말씀 전합니다.

PDF
코드
로그인이 필요합니다
0 / 1000
뿡뿡뿡삥
2023.12.24 14:45

안녕하세요! 좋은 코드 공유해주셔서 감사합니다, 
혹시
for c in X_train['corporation'].unique():
      x = X_train[X_train['corporation'] == c].iloc[-28:]

해당 부분에서는 왜 iloc부분에 '-28'을 사용했는지 이유가 있을까요 ?? 감사합니다!

탄화수소
2023.12.29 22:19

안녕하세요 뿡뿡뿡삥님
test 기간이 2023.03.04~2023.03.31로 28일 동안의 가격을 예측하는 것입니다.
따라서 validation score 예측도 가장 최근의 28일의 기간으로 잡았습니다.
위의 세 for문을 통과하면 item, location, corporation별 가장 최근의(28일) 데이터가 validation 데이터가 됩니다.
v_data 데이터 프레임을 체크하면 데이터의 형태를 확인할 수 있습니다.