따라하면서 배우는 머신러닝 프로젝트: 회귀

입문, 정형, 산업, 회귀

  • 입문 프로젝트
  • 3 시간 15 스테이지
  • 59 명

프로젝트 설명

어떤 프로젝트일지 시작하기 전에 읽어보세요

선행 학습 교재 시리즈

아래 교재들은 AI를 처음 배우는 분들을 위한 연계된 시리즈입니다.
이론 4권 + 실습 2권으로 구성되어 있으며, AI의 개념부터 실전 활용까지 단계적으로 익힐 수 있습니다.

무엇을 다루는 교재인가요?

AI 모델이 현실 데이터를 효과적으로 예측하려면, 단순히 모델을 선택하는 것만으로는 부족합니다.
무엇보다 중요한 것은 데이터를 올바르게 이해하고, 가공하고, 모델이 학습할 수 있도록 준비하는 과정입니다.

이번 교재에서는 앞서 배운 4권의 이론 교재에서 익힌 머신러닝 개념을 실제 데이터에 적용하여
기상 데이터를 기반으로 태양광 발전량을 예측하는 회귀(Regression) 프로젝트를 진행합니다.

이 프로젝트는 단순한 실습이 아닙니다.
실제 해커톤처럼 데이터 분석 → 전처리 → 특성 가공 → 모델 학습 → 평가 및 제출까지의
머신러닝 전체 흐름을 따라가며 실전 감각을 키울 수 있도록 설계된 실습형 교재입니다.

학습자 여러분은 이 과정을 통해 단순한 모델 구현을 넘어서, 데이터를 중심으로 사고하며 문제를 해결하는 능력을 기르게 될 것입니다.


이번 교재에서 배워요

스테이지 1~3

프로젝트 이해와 문제 정의

프로젝트의 목적과 평가 방식(MSE 지표)을 파악하고, 회귀 문제의 정의와 데이터셋 구조(train.csv, test.csv, sample_submission.csv)를 이해합니다.

스테이지 3~4

데이터 불러오기와 구조 탐색

pandas를 활용하여 CSV 데이터를 불러오고, head(), info(), shape, columns, dtypes 등 다양한 함수를 사용해 데이터의 구조를 파악합니다.
또한, loc[], iloc[]을 활용해 특정 행과 열을 선택하고, 인덱스를 직접 설정하여 효율적으로 데이터를 다루는 방법을 배웁니다.

스테이지 5~6

탐색적 데이터 분석(EDA)과 이상치 탐지

히스토그램, 박스플롯, 산점도 등의 시각화 기법을 통해 데이터 분포와 변수 간 관계를 분석하고,
IQR을 활용한 이상치 탐지 기법을 실습하며 데이터의 품질을 점검하고 전처리하는 과정을 익힙니다.

스테이지 7~8

특성 공학(Feature Engineering)

이상치 제거 및 평균값 대체를 통한 데이터 정제, 기존 변수(DHI, DNI)를 조합해 파생 변수(Total_Solar)를 생성하며
모델 성능을 높이기 위한 피처 엔지니어링 기법을 학습합니다.

스테이지 9~10

머신러닝 모델 학습 및 예측

선형 회귀(LinearRegression) 모델을 활용해 학습 데이터를 기반으로 모델을 학습하고,
예측 결과를 저장하여 제출 파일을 생성하는 전체 과정을 실습합니다.
또한, train_test_split()을 사용해 검증 데이터를 따로 분리하여 성능 평가용 데이터를 준비하는 방법도 함께 배웁니다.

스테이지 11~12

모델 평가 및 MSE 계산

검증 데이터가 있는 경우와 없는 경우를 나눠 모델을 평가하고,
mean_squared_error() 또는 직접 수식을 구현하여 MSE를 계산하는 방법을 학습합니다.
실제 제출 파일을 생성하여 예측 결과의 성능을 확인할 수 있습니다.

스테이지 13

과적합(Overfitting) 문제 실습

랜덤포레스트 모델을 사용해 학습 데이터에서는 성능이 높지만 검증 데이터에서는 성능이 떨어지는 과적합 상황을 직접 실습해보며,
과적합이 왜 발생하는지, 어떻게 방지할 수 있는지를 체험합니다.

스테이지 14~15

최종 제출을 위한 전체 과정 종합

전처리, 파생 변수 생성, 모델 학습, 예측, 제출 파일 생성까지 모든 과정을 종합해 하나의 워크플로우로 실습합니다.
실제 대회나 업무 현장에서 예측 모델을 적용하는 전 과정을 연습할 수 있습니다.

학습이 끝나면 이런 것들을 할 수 있어요.

train.csv, test.csv, sample_submission.csv로 구성된 데이터셋 구조를 분석할 수 있어요.

회귀 문제에서 평가 지표(MSE)의 의미를 이해하고 해석할 수 있어요.

IQR을 활용해 이상치를 탐지하고 처리할 수 있어요.

기존 변수들을 활용해 새로운 파생 변수를 생성할 수 있어요.

실제 제출 양식에 맞춰 예측 결과를 저장하고 제출 파일을 생성할 수 있어요.

전처리부터 모델 평가까지의 전체 머신러닝 파이프라인을 하나의 워크플로우로 구성하고 실행할 수 있어요.

이런 분들에게 추천해요

AI 해커톤이나 경진대회에 처음 도전해보고 싶은 예비 참가자

AI를 처음 실습해보는 입문자

머신러닝의 기본기를 실전 프로젝트로 다지고 싶은 학습자

데이터 전처리와 피처 엔지니어링의 중요성을 이해하고 싶은 분

프로젝트 과정

차근차근 단계를 밟아 학습해보세요.

스테이지 15 개

1. 따라하면서 배우는 머신러닝 프로젝트: 회귀
2. QUIZ - 태양광 프로젝트 이해하기
3. 데이터 불러오기와 기본 탐색
4. QUIZ - 데이터를 불러오고 기본적인 탐색하기
5. 탐색적 데이터 분석(EDA)과 기본 전처리
6. QUIZ - 탐색적 데이터 분석(EDA)와 기본 전처리 이해하기
7. 특성 공학(Feature Engineering) : 특성 가공하기
8. QUIZ - 특성 공학(Feature Engineering) 이해하기
9. 모델 학습과 예측
10. QUIZ - 모델 학습과 예측 이해하기
11. 모델 평가
12. QUIZ - 모델 평가 이해하기
13. 과적합
14. 최종 모델 구축 및 제출: 모든 과정 종합하기
15. QUIZ - 최종 제출 이해하기

내 학습 진도

1. 따라하면서 배우는 머신러닝 프로젝트: 회귀
데이스쿨 picture

데이스쿨

안녕하세요! 🙋‍♀️ 데이스쿨은 인공지능 초/중급 학습자를 위한 프로젝트 학습, 해커톤, 트랙으로 구성된 학습 플랫폼이에요. 부단한 연습과 매일의 작은 노력을 통해 여러분의 학습 목표를 달성해 보세요. 🏆 여러분의 성공을 위해 데이스쿨이 함께 할게요. 🎉 📧 문의: dacon0school@gmail.com

더보기