파생변수 생성과 선택 - 기본을 탄탄히!

파생 변수 생성, 피처 선택

주제학습 프로젝트
3 시간 4 스테이지
22 명

프로젝트 설명

어떤 프로젝트일지 시작하기 전에 읽어보세요

개요

"피처 생성과 선택 - 기본을 탄탄히!" 교재는 머신러닝 모델의 성능을 실질적으로 향상시키는 데 필수적인 과정에 초점을 맞춘 교육 과정입니다.

이 교재는 특히 데이터에서 예측하고자 하는 타겟변수와의 연관성을 극대화하기 위한 피처 생성(Feature Generation)과 모델의 복잡성을 줄이며 중요한 정보만을 추려내는 피처 선택(Feature Selection)의 중요성을 강조합니다.

각 단계에서 실제 데이터에 적용 가능한 기법을 이해하고, 실전 데이터 적용 실습을 통해 학습하는 과정을 제공함으로써, 머신러닝 모델링의 효율성과 정확도를 높이는 방법을 체계적으로 배울 수 있습니다.

학습 목표

스테이지 1: 피처 생성(Feature Generation) (1)

이 단계에서는 피처 생성의 이유와 목적을 명확히 이해하고, Binning 같은 기본적인 피처 생성 기법을 실습을 통해 배웁니다. 피처 생성 과정을 통해 모델이 타겟 변수를 더 정확하게 예측할 수 있도록 돕는 방법을 학습합니다.

스테이지 2: 피처 생성(Feature Generation) (2)

이 단계에서는 머신러닝 모델을 학습시키는 과정과 새로운 데이터에 대한 예측 방법을 배웁니다. Scikit-learn 라이브러리를 활용하여 학습 데이터의 feature set을 학습하고, 정답지가 없는 새로운 데이터셋에 대한 예측을 수행하는 과정을 실습합니다. 이 과정을 통해 모델 학습의 기본 원리와 예측의 의미를 깊이 있게 이해할 수 있습니다.

스테이지 3: 피처 중요도(Feature Importance)

분류 모델의 성능을 평가하는 지표들을 학습합니다. Accuracy, Precision, Recall, F1-score와 같은 대표적인 성능 평가 지표의 정확한 개념을 confusion matrix를 통해 이해하며, 이를 실제 문제에 어떻게 적용하는지 배웁니다. 이를 통해 모델의 성능을 정확하게 평가하고 개선 방향을 모색할 수 있는 능력을 기릅니다.

스테이지 4: 피처 선택(Feature Selection)

마지막 단계에서는 학습 데이터를 학습용과 검증용으로 분할하여, 모델의 성능을 객관적으로 평가하는 방법을 배웁니다. Scikit-learn의 train_test_split 모듈을 활용하여 모델 학습과 성능 검증 과정을 실습합니다. 실전 대회 데이터를 활용한 실습을 통해, 실제 환경에서 모델의 성능을 검증하고 최적화하는 방법을 익힐 수 있습니다.

필수 선행 학습 📖

주제 학습 : 분류문제 모델 학습 및 성능 검증 ( https://dacon.io/edu/159 )
주제 학습 : 피처 엔지니어링 입문 ( https://dacon.io/edu/25)
주제 학습 : EDA : 데이터 분석을 위한 시각화 기초 (https://dacon.io/edu/158 )

프로젝트 과정

차근차근 단계를 밟아 학습해보세요.

스테이지 4 개

1. 피처 생성 (Feature Generation) (1)

2. 피처 생성(Feature Generation) (2)

3. 피처 중요도(Feature Importance)

4. 피처 선택 (Feature Selection)

해커톤

의류 제조 회사 생산성 예측 AI 해커톤

지금 바로 데이터 분석가로서의 첫걸음을 내딛어 보세요.

내 학습 진도

1. 피처 생성 (Feature Generation) (1)

연관된 연습 대회 추천

해커톤

의류 제조 회사 생산성 예측 AI 해커톤

지금 바로 데이터 분석가로서의 첫걸음을 내딛어 보세요.