Python 튜토리얼

Lv3 python 파이썬 이상치 탐지부터 처리까지 Review

2021.07.23 10:43 2,086 Views

EDA를 통해서 이상치를 탐지하고,

이상치를 제거하는 과정을 복습해봅시다.


순서는 다음과 같습니다

  1. df.describe()를 통해서 "데이터에 무언가 이상한게 있나? 싶은 Feature들을 탐지합니다"
  2. EDA의 그림을 그려 실제로 그러한지를 탐지합니다
  3. 이상한 데이터 포인트들이 있다면, 처리할 지를 결정합니다.


------------------------------------------------------------------------------------------------------------------------------------------------------

실습으로 다시 함께 해 보시죠

  1. train 데이터에 이상치가 있나?

train.describe()

      

       2. Seaborn의 boxplot()으로 실제로 이상치인지 탐지해봅시다.

sns.boxplot(data = train['fixed acidity'])

      

      3.이상치가 파악되었다면, 이상치들을 IQR을 이용해서 제거해봅시다.

# 25%에 위치한 값을 구해줍니다.

quantile_25 = np.quantile(train['fixed acidity'], 0.25)


# 75%에 위치한 값을 구해줍니다.

quantile_75 = np.quantile(train['fixed acidity'],0.75)


# IQR을 구해줍니다.

IQR = quantile_75 - quantile_25


# quantile_25보다 1.5 * IQR 작은 값을 구해줍니다.

minimum = quantile_25 - 1.5 * IQR


# quantile_75보다 1.5 * IQR 큰 값을 구해줍니다.

maximum = quantile_75 + 1.5 * IQR


# minimum보다 크거나 같고, maximum보다 작거나 같은 값들만 뽑아냅니다.

train2 = train[(minimum <= train['fixed acidity']) & (train['fixed acidity'] <= maximum)]


-------------------------------------------------------------------------------------------------------------------------------------------------


여기까지 "Lv3 이상치 탐지부터 처리까지 Review"를 마치도록 하겠습니다.


[Colab 실습 링크]


↩️ 오늘의 파이썬 리스트

#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선  #데이터분석 #데이터사이언티스트 #코랩 #Python  #colab #kaggle #pandas #numpy #sckit-learn # read_csv #스케일링 #MinMaxScailing