2022 UOS 빅데이터 알고리즘 경진대회

[Baseline] LSTM을 활용한 2022년 따릉이 대여량 예측

2022.11.14 12:04 5,273 조회 language

안녕하세요. 데이콘입니다.

데이콘 베이스라인은 모든 참가자의 '제출'을 목표로 합니다.
본 베이스라인은 참가자들의 '제출'을 목표로 하기에 간단한 LSTM으로 구현되었습니다.
베이스라인의 프로세스는 다음과 같습니다.
1. 2018년 ~ 2020년의 각 지역별 따릉이 대여량과 일자 정보로부터 예측 일자의 과거 X_RANGE일 만큼의로 예측 일자의 따릉이 대여량을 예측하며 학습합니다.
2. 학습된 모델은 2021년의 데이터로 Validation set을 설정하고 학습 에폭 마다 Validation set에 대한 MAE를 측정합니다. (Inference 환경과 같이 Validation 검증 시에도 예측 값들을 토대로 다시 Input으로 넣어 측정해야 신뢰성이 있으나, 베이스라인 특성상 실제 Data로 진행하였습니다.)
3. 추론은 학습과 동일한 방식으로 예측 일자를 기준으로 과거 X_RANGE일 만큼의 데이터들을 통해 2022년 1월 1일부터 예측을 해나가며, 예측 값들을 다시 모델의 Input으로 활용하여 모두 진행하는 방식입니다.

그러나 본 베이스라인은 단순히 각 지역별 따릉이 대여량 데이터와 일자 정보만으로 학습/추론하는 코드이며, 참가자 분들께서는 추가로 외부 공공데이터들을 활용하여
추가적으로 변수들을 생성하거나 다른 방식으로 학습/추론을 진행하실 수 있습니다.
또한 시계열 분석을 위한 추가 전처리를 적용하지 않은 최소한의 상태이므로 참가자 여러분들께서 시계열 데이터 분석을 통해 고도화를 하실 수 있습니다.
단, 외부 데이터 규칙과 Data Leakage 유의사항을 꼭 확인하시어 진행 부탁드립니다.

본 베이스라인 코드가 모든 참가자 여러분들의 대회 진행에 도움이 되면 좋겠습니다.

감사합니다. 
데이콘 드림

코드