Python 튜토리얼

기초

  • moneyIcon Prize : 교육
  • 9,999명 D-100720

 

Lv3 전처리 2/4 python 파이썬 이상치 제거

2021.07.21 15:06 8,087 Views

이번 시간에는 IQR을 통해서 이상치를 제거해보겠습니다.

IQR이란, 3분위수(75%에 위치한 값) - 1분위수(25%에 위치한 값)를 의미합니다.

아래의 지난 시간에서 다룬 boxplot을 통해서 살펴보겠습니다.


각각의 선들이 의미하는 바를 살펴보겠습니다.

  • 10~8 사이의 실선 : 3분위수 + 1.5 * IQR
  • 보라색 박스의 위쪽 실선 : 3분위수 (75%)
  • 보라색 박스의 중앙 실선 : 2분위수 (중앙값)
  • 보라색 박스의 아래 실선 : 1분위수 (25%)
  • 4~6 사이의 실선 : 1분위수 - 1.5 * IQR
  • 보라색 박스의 길이 : 3분위수 - 1분위수 = IQR

즉, 우리는 이 boxplot의 4와 6사이의 실선보다 작고, 8과 10 사이의 실선보다 큰 데이터 포인트들을 이상치로 판단하고 제거해보겠습니다.

---------------------------------------------------------------------------------------------------------

# 25%에 위치한 값을 구해줍니다.

quantile_25 = np.quantile(train['fixed acidity'], 0.25)

---------------------------------------------------------------------------------------------------------

# 75%에 위치한 값을 구해줍니다.

quantile_75 = np.quantile(train['fixed acidity'],0.75)

---------------------------------------------------------------------------------------------------------

# IQR을 구해줍니다.

IQR = quantile_75 - quantile_25

---------------------------------------------------------------------------------------------------------

# quantile_25보다 1.5 * IQR 작은 값을 구해줍니다.

minimum = quantile_25 - 1.5 * IQR

---------------------------------------------------------------------------------------------------------

# quantile_75보다 1.5 * IQR 큰 값을 구해줍니다.

maximum = quantile_75 + 1.5 * IQR

---------------------------------------------------------------------------------------------------------

# minimum보다 크거나 같고, maximum보다 작거나 같은 값들만 뽑아냅니다.

train2 = train[(minimum <= train['fixed acidity']) & (train['fixed acidity'] <= maximum)]

---------------------------------------------------------------------------------------------------------


[Colab 실습 링크]


↩️ 오늘의 파이썬 리스트

#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선  #데이터분석 #데이터사이언티스트 #코랩 #Python  #colab #kaggle #pandas #numpy #sckit-learn # read_csv #이상치제거 #IQR


로그인이 필요합니다
0 / 1000
세라자데
2021.09.02 17:05

done

그린티
2021.09.08 14:42

done

DSJY
2021.09.13 16:43

phu
2021.09.13 21:21

매미인턴
2021.09.15 14:45

다욤
2021.09.19 00:40

찬찬이
2021.09.24 18:57

Holte
2021.09.30 16:06

Holte
2021.09.30 16:06

changhyeon
2021.10.08 17:19

done

왼쪽눈썹왁싱
2021.10.31 09:43

coddinggoldfish
2021.11.17 16:22

yulia.
2021.11.23 21:28

야옹이다옹
2021.12.03 19:11

sotanfdl
2021.12.10 13:44

moran
2021.12.27 16:11

하잉바
2021.12.27 17:30

dbnoid
2022.01.18 19:23

hijihyo
2022.01.21 16:11

done

djffjdEndEkd
2022.01.28 18:30

done

호랭이띠
2022.01.29 18:51

done

하랴랴
2022.02.28 17:56

done

ChimChim
2022.03.05 23:24

acebed
2022.03.10 18:00

done

하얀레몬
2022.03.17 13:37

done

kimgugu
2022.03.27 10:52

비회원
2022.04.05 17:28

Kdata
2022.04.19 09:30

krooner
2022.05.19 14:59

jaka
2022.06.17 22:49

48hour
2022.07.01 13:40

저만 박스가 보라색이 아니라 파란색으로 보이나요?

당쇠
2022.07.01 13:45

파란색으로 보여요.

양현모든지쓸어버리겠다
2022.07.07 10:13

dirno
2022.07.07 16:37

MINKYU
2022.07.22 00:44

간지나는패션
2022.08.12 15:53

done

김시옷
2022.09.21 21:39

삭제된 댓글입니다

김시옷
2022.09.21 21:39

skanehfud279
2022.09.26 11:39

baeksh0330
2022.10.02 17:13

엿장수
2022.10.12 01:03

gnt0000
2022.10.30 20:48

done

sk100
2022.11.01 22:10

done

yun_
2022.11.14 19:46

done

highllight
2023.01.16 15:35

김시옷
2023.05.29 00:17

done+

이전 글
인덱싱을 위한 Pandas .iloc .loc 사용 방법 데이터 분석 및 조작을위한
Competition - Python 튜토리얼
Likes 4
Views 1,707
Comments 0
일 년 전
현재 글
Lv3 전처리 2/4 python 파이썬 이상치 제거
Competition - Python 튜토리얼
Likes 19
Views 8,087
Comments 45
3년 전
다음 글
다음 글이 존재하지 않습니다.