데이터 불균형 문제와 해결 방안 1️⃣

오버샘플링, 언더샘플링, smote

  • 주제학습 프로젝트
  • 1 시간 4 스테이지
  • 279 명

프로젝트 설명

어떤 프로젝트일지 시작하기 전에 읽어보세요

개요

이번 프로젝트에서는 컴퓨터가 데이터를 이해하는 데 도움이 되는 '데이터 균형 잡기'에 대해 배웁니다. 데이터는 컴퓨터가 배우고, 문제를 해결하기 위해 사용하는 정보입니다. 하지만 가끔 이 데이터가 공평하게 분포되지 않을 때가 있습니다. 예를 들어, 사탕 가게에 초콜릿은 많지만 젤리는 적다면, 컴퓨터는 젤리에 대해 잘 모릅니다. 우리는 이 문제를 해결하기 위해 데이터를 공평하게 만드는 방법을 배워볼 것입니다.

목표

1.데이터 불균형의 이해
컴퓨터가 왜 데이터를 공평하게 가지고 있어야 하는지 배웁니다. 데이터가 불공평하면 컴퓨터가 잘못 배울 수 있습니다.

2.오버샘플링 기법 학습
오버샘플링은 젤리가 적을 때, 젤리를 더 많이 만들어서 초콜릿과 같은 양으로 만드는 방법입니다. 이렇게 하면 컴퓨터가 젤리에 대해서도 잘 배울 수 있습니다.

3.언더샘플링 기법 학습
언더샘플링은 반대로 초콜릿을 조금 줄여서 젤리의 양과 같게 만드는 것입니다. 이렇게 해도 컴퓨터는 두 가지에 대해 공평하게 배울 수 있습니다.

4.샘플링 기법의 적용 및 비교
오버샘플링과 언더샘플링 기법을 각각 적용하고, 두 방법의 장단점을 비교 분석합니다. 실제 사례를 통해 각 방법의 적합한 사용 상황을 이해합니다.

프로젝트 과정

차근차근 단계를 밟아 학습해보세요.

스테이지 4 개

1. 데이터 불균형, 그것이 문제로다 👿
2. 오버샘플링 👆: 소수 클래스 증가시키기
3. 언더샘플링 👇: 소수 클래스와의 균형 찾기
4. 실전문제📚 - 데이터 불균형, 대회에서의 적용
해커톤
전화 해지 여부 분류 AI 해커톤
지금 바로 데이터 분석가로서의 첫걸음을 내딛어 보세요.
Related project image

내 학습 진도

1. 데이터 불균형, 그것이 문제로다 👿

연관된 연습 대회 추천

해커톤
전화 해지 여부 분류 AI 해커톤
지금 바로 데이터 분석가로서의 첫걸음을 내딛어 보세요.