따라하면서 배우는 시계열 예측 프로젝트 (3)

입문, 정형, 교통, 시계열

  • 입문 프로젝트
  • 5 시간 5 스테이지
  • 22 명

프로젝트 설명

어떤 프로젝트일지 시작하기 전에 읽어보세요

무엇을 다루는 교재인가요?

이 교재는 시계열 데이터 분석에서 패턴 발견부터 실제 예측 모델 구축까지의 전체 과정을 실습 중심으로 학습할 수 있도록 구성된 종합 가이드입니다. 2024년 택시 수요 데이터를 활용하여 EDA(탐색적 데이터 분석)에서 시작해 예측 모델링과 성능 평가까지 시계열 분석의 완전한 워크플로우를 체험할 수 있습니다.

택시 수요 예측은 시계열 분석의 핵심 개념들을 자연스럽게 학습할 수 있는 최적의 주제입니다. 월별 계절성(12월 최고 vs 8월 최저), 시간대별 일일 사이클(18시 피크 vs 3시 최저), 요일별 주간 사이클(평일 vs 주말 68% 차이) 등 다층적인 시간 패턴들이 명확하게 드러나며, 이러한 패턴들이 실제 예측 모델에서 어떻게 활용되는지 직접 확인할 수 있습니다.

전체적인 모델링 프로세스를 다루면서 시간 순서를 고려한 올바른 Train/Test 분리, 시간 기반 피처 엔지니어링, 여러 예측 모델의 구현과 비교, MAE와 SMAPE 등 다양한 평가 지표 활용, 그리고 모델 성능의 시각적 비교까지 경험할 수 있습니다.

특히 동일한 데이터에 대해 단일 피처 모델(시간만, 요일만)과 결합 피처 모델(시간+요일)의 성능을 정량적으로 비교함으로써, 모델 성능의 차이를 체감할 수 있습니다. SMAPE 기준으로 시간별 모델 42.43%, 요일별 모델 85.07%, 결합 모델 32.17%의 성능 차이를 통해 데이터 기반 의사결정의 중요성을 깊이 있게 이해할 수 있습니다.


이번 교재에서 배워요.

스테이지 1

(2)에서 배운 내용 복습 및 시계열 패턴 재확인

- 시계열 데이터 전처리 과정(pd.to_datetime(), set_index()) 복습과 기본 데이터 구조 재정립
- datetime 인덱스 기반 피처 엔지니어링(hour, weekday, weekday_name, is_weekend) 기법 재학습
- pandas.groupby()를 활용한 시간별, 요일별 패턴 분석 방법 복습 및 핵심 인사이트 재확인
- idxmax(), idxmin() 함수를 통한 최댓값/최솟값 위치 식별 기술 재습득
- 이전 분석에서 발견한 주요 패턴(18시 피크, 3시 최저, 목요일 최고 수요, 평일 vs 주말 68% 비율) 일관성 검증

스테이지 2~3

시계열 패턴 기반 예측 모델링과 MAE 평가

- 시계열 데이터에서 시간 순서를 고려한 올바른 Train/Test 분리 방법 (마지막 7일을 테스트로 사용)
- 시간별, 요일별, 시간+요일 조합별 평균 수요 계산을 통한 단순 예측 모델 구축
- 예측 함수(predict_by_hour, predict_by_weekday, predict_combined) 직접 구현
- MAE(Mean Absolute Error) 평가 지표 구현과 모델 성능 정량적 비교
- 단일 피처 vs 결합 피처 모델의 성능 차이(79.93 vs 67.76 MAE) 분석을 통한 피처 엔지니어링 효과 검증

스테이지 4~5

SMAPE 평가와 모델 성능 분석

- SMAPE 평가 지표 개념 이해와 MAE 대비 장점 파악
- 동일 데이터셋에서 서로 다른 평가 지표(MAE vs SMAPE) 적용 시 모델 순위 변화 관찰
- matplotlib 서브플롯을 활용한 모델 성능 비교 막대그래프와 예측 결과 시계열 그래프 동시 시각화
- 세 가지 예측 모델의 SMAPE 성능 비교(시간별: 42.43%, 요일별: 85.07%, 결합: 32.17%) 및 최적 모델 선택
- 실제값과 예측값의 시각적 비교를 통한 모델 예측 패턴 분석과 개선 방향 도출

학습이 끝나면 이런 것들을 할 수 있어요.

시계열 데이터에서 시간 순서를 고려한 올바른 Train/Test 분리 방법을 적용하여 데이터 리키지를 방지할 수 있어요

MAE와 SMAPE 두 가지 평가 지표를 구현하고 활용하여 모델 성능을 다각도로 평가할 수 있어요

단일 피처 모델과 결합 피처 모델의 성능을 비교하여 피처 엔지니어링의 실질적 효과를 검증할 수 있어요

실제값과 예측값의 시각적 비교를 통해 모델의 예측 패턴을 분석하고 개선점을 도출할 수 있어요

이런 분들에게 추천해요.

시계열 EDA에서 발견한 패턴들이 실제 예측 모델에서 어떻게 활용되는지 이해하고 싶은 분

MAE, SMAPE 등 다양한 평가 지표의 차이점과 각각의 장단점을 실제 데이터로 비교해보고 싶은 분

복잡한 딥러닝 모델을 배우기 전에 단순한 통계 기반 예측 모델부터 차근차근 이해하고 싶은 분

피처 엔지니어링의 효과를 정량적으로 측정하고 검증하는 방법을 배우고 싶은 분

프로젝트 과정

차근차근 단계를 밟아 학습해보세요.

스테이지 5 개

1. (2)에서 배운 내용 복습
2. 인사이트(시간, 요일, 시간+요일)를 활용한 예측 모델링(MAE)
3. QUIZ - 인사이트를 활용한 예측 모델링(MAE) 이해하기
4. 인사이트(시간, 요일, 시간+요일)를 활용한 예측 모델링(SMAPE)
5. QUIZ - 인사이트를 활용한 예측 모델링(SMAPE) 이해하기

내 학습 진도

1. (2)에서 배운 내용 복습
데이스쿨 picture

데이스쿨

안녕하세요! 🙋‍♀️ 데이스쿨은 인공지능 초/중급 학습자를 위한 프로젝트 학습, 해커톤, 트랙으로 구성된 학습 플랫폼이에요. 부단한 연습과 매일의 작은 노력을 통해 여러분의 학습 목표를 달성해 보세요. 🏆 여러분의 성공을 위해 데이스쿨이 함께 할게요. 🎉 📧 문의: dacon0school@gmail.com

더보기