분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Lv3 전처리 2/4 python 파이썬 이상치 제거
이번 시간에는 IQR을 통해서 이상치를 제거해보겠습니다.
IQR이란, 3분위수(75%에 위치한 값) - 1분위수(25%에 위치한 값)를 의미합니다.
아래의 지난 시간에서 다룬 boxplot을 통해서 살펴보겠습니다.
각각의 선들이 의미하는 바를 살펴보겠습니다.
즉, 우리는 이 boxplot의 4와 6사이의 실선보다 작고, 8과 10 사이의 실선보다 큰 데이터 포인트들을 이상치로 판단하고 제거해보겠습니다.
---------------------------------------------------------------------------------------------------------
# 25%에 위치한 값을 구해줍니다.
quantile_25 = np.quantile(train['fixed acidity'], 0.25)
---------------------------------------------------------------------------------------------------------
# 75%에 위치한 값을 구해줍니다.
quantile_75 = np.quantile(train['fixed acidity'],0.75)
---------------------------------------------------------------------------------------------------------
# IQR을 구해줍니다.
IQR = quantile_75 - quantile_25
---------------------------------------------------------------------------------------------------------
# quantile_25보다 1.5 * IQR 작은 값을 구해줍니다.
minimum = quantile_25 - 1.5 * IQR
---------------------------------------------------------------------------------------------------------
# quantile_75보다 1.5 * IQR 큰 값을 구해줍니다.
maximum = quantile_75 + 1.5 * IQR
---------------------------------------------------------------------------------------------------------
# minimum보다 크거나 같고, maximum보다 작거나 같은 값들만 뽑아냅니다.
train2 = train[(minimum <= train['fixed acidity']) & (train['fixed acidity'] <= maximum)]
---------------------------------------------------------------------------------------------------------
↩️ 오늘의 파이썬 리스트
#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn # read_csv #이상치제거 #IQR
done
✅
✅
✅
✅
✅
✅
✅
done
✅
✅
✅
✅
✅
✅
✅
✅
done
done
done
done
✅
done
done
✅
✅
✅
✅
✅
저만 박스가 보라색이 아니라 파란색으로 보이나요?
파란색으로 보여요.
✅
✅
✅
done
삭제된 댓글입니다
✅
✅
✅
✅
done
done
done
✅
done+
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
done