[따라코딩] 인구 소득 예측 프로젝트 중급 (3)

따라하기

  • 따라코딩 프로젝트
  • 0 시간 1 스테이지
  • 40 명

프로젝트 설명

어떤 프로젝트일지 시작하기 전에 읽어보세요

무엇을 다루는 교재인가요?

데이터의 불완전성을 체계적으로 분석하고, 시각화하며, 머신러닝 기법을 활용해 지능적으로 결측값을 복원하는 데이터 전처리 워크플로우를 제작합니다.

인구통계학 데이터셋의 결측값 문제를 진단부터 해결까지 종합적으로 다루는 클렌징 과정입니다. 단순히 결측값을 제거하거나 평균으로 대체하는 기초적인 방법을 넘어, 데이터의 패턴을 학습하여 어떻게 의미있는 값으로 복원하고, 왜 이런 접근이 중요한지, 실제로 어떻게 데이터 품질을 향상시킬 수 있는지를 단계별로 익힐 수 있어요.

기본적인 결측값 처리와는 다르게, 결측 패턴 분석, 시각적 진단, 랜덤 포레스트 기반 지능형 대체 기법을 통해 이 코드를 통해 데이터 전처리의 접근법과 문제 해결 능력을 기를 수 있습니다.


이번 교재에서 배워요.

스테이지 1

결측값 처리의 고급 기법과 머신러닝 기반 접근법

- 결측값의 분포와 비율을 정확히 계산하고 시각화하여 데이터 품질 문제의 심각성을 평가하는 방법을 배웁니다.
- missingno 라이브러리를 활용한 결측 패턴 시각화로 데이터 결측의 구조적 특성을 파악하는 기술을 익힙니다.
- 랜덤 포레스트 분류기를 활용하여 다른 특성들의 패턴에서 결측된 범주형 변수('occupation')를 예측하는 지능형 대체 기법을 학습합니다.
- 카테고리 변수의 인코딩과 디코딩 과정을 통해 머신러닝 모델 적용과 원래 데이터 형식으로의 변환 방법을 이해합니다.
- SimpleImputer를 활용한 최빈값 기반 결측치 대체와 같은 전통적 방법과 머신러닝 기반 방법의 조합으로 종합적인 결측값 처리 전략을 다룹니다.

프로젝트 과정

차근차근 단계를 밟아 학습해보세요.

스테이지 1 개

1. 결측값 처리를 통한 데이터 완성하기

내 학습 진도

1. 결측값 처리를 통한 데이터 완성하기
데이스쿨 picture

데이스쿨

안녕하세요! 🙋‍♀️ 데이스쿨은 인공지능 초/중급 학습자를 위한 프로젝트 학습, 해커톤, 트랙으로 구성된 학습 플랫폼이에요. 부단한 연습과 매일의 작은 노력을 통해 여러분의 학습 목표를 달성해 보세요. 🏆 여러분의 성공을 위해 데이스쿨이 함께 할게요. 🎉 📧 문의: dacon0school@gmail.com

더보기