#오늘의 파이썬 #1일1오파 #파이썬 # python

매일 오전10시 업로드, Dacon Daily Python Camp. 1일1오파 격파하기!

  • moneyIcon Prize : 교육
  • 30Team D-101398

 

Lv3 전처리 2/4 python 파이썬 이상치 제거

2021.07.21 15:06 3,130 Views

이번 시간에는 IQR을 통해서 이상치를 제거해보겠습니다.

IQR이란, 3분위수(75%에 위치한 값) - 1분위수(25%에 위치한 값)를 의미합니다.

아래의 지난 시간에서 다룬 boxplot을 통해서 살펴보겠습니다.


각각의 선들이 의미하는 바를 살펴보겠습니다.

  • 10~8 사이의 실선 : 3분위수 + 1.5 * IQR
  • 보라색 박스의 위쪽 실선 : 3분위수 (75%)
  • 보라색 박스의 중앙 실선 : 2분위수 (중앙값)
  • 보라색 박스의 아래 실선 : 1분위수 (25%)
  • 4~6 사이의 실선 : 1분위수 - 1.5 * IQR
  • 보라색 박스의 길이 : 3분위수 - 1분위수 = IQR

즉, 우리는 이 boxplot의 4와 6사이의 실선보다 작고, 8과 10 사이의 실선보다 큰 데이터 포인트들을 이상치로 판단하고 제거해보겠습니다.

---------------------------------------------------------------------------------------------------------

# 25%에 위치한 값을 구해줍니다.

quantile_25 = np.quantile(train['fixed acidity'], 0.25)

---------------------------------------------------------------------------------------------------------

# 75%에 위치한 값을 구해줍니다.

quantile_75 = np.quantile(train['fixed acidity'],0.75)

---------------------------------------------------------------------------------------------------------

# IQR을 구해줍니다.

IQR = quantile_75 - quantile_25

---------------------------------------------------------------------------------------------------------

# quantile_25보다 1.5 * IQR 작은 값을 구해줍니다.

minimum = quantile_25 - 1.5 * IQR

---------------------------------------------------------------------------------------------------------

# quantile_75보다 1.5 * IQR 큰 값을 구해줍니다.

maximum = quantile_75 + 1.5 * IQR

---------------------------------------------------------------------------------------------------------

# minimum보다 크거나 같고, maximum보다 작거나 같은 값들만 뽑아냅니다.

train2 = train[(minimum <= train['fixed acidity']) & (train['fixed acidity'] <= maximum)]

---------------------------------------------------------------------------------------------------------


[Colab 실습 링크]


↩️ 오늘의 파이썬 리스트

#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선  #데이터분석 #데이터사이언티스트 #코랩 #Python  #colab #kaggle #pandas #numpy #sckit-learn # read_csv #이상치제거 #IQR


세라자데
2021.09.02 17:05

done

그린티
2021.09.08 14:42

done

DSJY
2021.09.13 16:43

phu
2021.09.13 21:21

매미인턴
2021.09.15 14:45

다욤
2021.09.19 00:40

찬찬이
2021.09.24 18:57

Holte
2021.09.30 16:06

Holte
2021.09.30 16:06

changhyeon
2021.10.08 17:19

done

왼쪽눈썹왁싱
2021.10.31 09:43

coddinggoldfish
2021.11.17 16:22

yulia.
2021.11.23 21:28

냐옹
2021.12.03 19:11

sotanfdl
2021.12.10 13:44

moran
2021.12.27 16:11

하잉바
2021.12.27 17:30

dbnoid
2022.01.18 19:23

hijihyo
2022.01.21 16:11

done

djffjdEndEkd
2022.01.28 18:30

done

호랭이띠
2022.01.29 18:51

done

하랴랴
2022.02.28 17:56

done

ChimChim
2022.03.05 23:24

acebed
2022.03.10 18:00

done

하얀레몬
2022.03.17 13:37

done

kimgugu
2022.03.27 10:52

Milhaud
2022.04.05 17:28

Kdata
2022.04.19 09:30

krooner
2022.05.19 14:59

로그인이 필요합니다
0 / 1000