추석 맞이 추석 선물 수요량 예측 AI 해커톤

알고리즘 | 정형 | 회귀 | 추석 | RMSE

  • moneyIcon 상금 : 인증서
  • 420명 마감

 

Private 2위, AutoGluon 모델, Feature 변수 추가, Distillation 기법 활용

2023.10.04 16:21 1,006 조회 language

다른 대회에서도 단일 모델 튜닝보다 AutoGluon 모델이 더 높은 점수를 내어주어
이번에도 적용하였습니다.

먼저, 데이터에서 남은 주차에 따른 수요량이나, 프로모션 같은 경우 어떤 기준인지
추정이 어렵고, 카테고리들이 많아 SMOTE 알고리즘 적용을 못했습니다.
상품명에 형태소 또는 ngram으로 분리 등도 역시 , 해보지 못했네요.

초기에는 상품에 대한 분류( ex. 과일류, 스팸류 등 )를 적용하였을때 점수향상에 도움이 되었는데,
이후, 아래 내용을 추가하니, 오히려 점수를 낮추어 이를 제외 시켰습니다.
Feature중요도를 보면 상품과 쇼핑몰, 그리고 가격에 영향을 크기 받는데,
이를 위해 평균값과 분산 특성을 추가한 게 점수를 좀 더 얻었습니다.
가격은 카테고리 특성이 아니어서, 대신 도시에 대한 평균값과 분산을 추가했습니다.
또한, 마지막에는 동일상품인데 가격이 다른 경우를 발견하여, 추가하였으나 오히려 점수가 낮게 나오더군요.
(제출할때 못빼서 코드에 남아 있습니다.) 

마지막으로 AutoGluon 의 경우, num_bag_folds, num_bag_sets 등의 값을 튜닝하였을 때, 점수차이가 나는데
시간이 걸려, 다양하게 테스트 하지는 못했습니다.
AutoGluon의 Distillation 모델이 소폭의 점수 향상이 가능하여 제출모델은 Distillation 모델로 최종 선정했습니다.
코드를 돌리면 파일 2개 생성됩니다. 앙상블 모델과 Distillation 모델입니다. ( size_factor는 5 가 기본값입니다. )

AutoGluon의 경우, random_state를 설정하는 방법을 몰라 설정을 못했는데, 
재현 테스트시 더 좋은 점수 또는 낮은 점수가 나올수 있을 것 같습니다.

코드를 쉽게 볼수 있도록 정리하려고 하였으나, 공용함수는 정리를 못했네요. 참고하시기 바랍니다.

코드
로그인이 필요합니다
0 / 1000
basslibrary
2023.10.05 00:43

필요설치 package 라이브러리는 pandas, numpy 그리고, autogluon 입니다.
모두 pip 로 설치가능합니다.
!pip install pandas numpy autogluon

복동이
2023.10.04 20:37

코드 감사합니다

주머니쥐
2023.10.04 22:32

수고하셨습니다!

대림동총잡이
2023.10.04 23:41

고생하셨습니다! 축하드립니다!

김체인
2023.10.05 20:10

여러가지 많이 배웠습니다. 수고하셨습니다!