Python 튜토리얼

기초

  • moneyIcon Prize : 교육
  • 9,999명 D-100719

 

Lv4 EDA 4/5 python 파이썬 다중공선성 Scatter plot

2021.08.06 12:02 4,499 Views

다중공선성

다중공선선은 상관관계가 높은 독립변수들이 동시에 모델에 포함될 때 발생합니다.

만약 두 변수가 완벽하게 다중공선성에 걸려있다면, 같은 변수를 두 번 넣은 것이므로 모델이 결괏값을 추론하는 데 방해가 될 수 있습니다.

 

CCKorea / CC BY


다중공선성 확인

다중공선성을 확인 하는 방법은 크게 3가지가 있습니다.

  1. Scatter plot을 통한 확인
  2. Heatmap 그래프를 통한 확인
  3. VIF(Variance Inflation Factors, 분산팽창요인)을 통한 확인

이번 시간에는 첫번째 방법인 Scatter plot을 이용하여 다중공선성을 확인 해보겠습니다.

Scatter Plot(산점도 그래프)는 두 개의 연속형 변수에 대한 관계를 파악하는데 유용하게 사용할 수 있습니다.

Scatter Plot 예시

CCKorea / CC BY


예시처럼 x 데이터가 증가함에 따라 y 데이터가 증가하는 경향을 보이는데, 이럴 경우 두 변수의 상관도가 높다고 해석 할 수 있습니다.

---------------------------------------------------------------------------------------------------------------------

# Scatter Plot을 그릴 변수 지정 (

x_data = train['residual sugar']

y_data = train['density']


# seaborn 의 scatterplot함수를 이용해 그래프를 그립니다.

sns.scatterplot(x = x_data, y = y_data )

---------------------------------------------------------------------------------------------------------------------


[Colab 실습 링크]


↩️ 오늘의 파이썬 리스트

#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선  #데이터분석 #데이터사이언티스트 #코랩 #Python  #colab #kaggle #pandas #numpy #sckit-learn # read_csv

로그인이 필요합니다
0 / 1000
그린티
2021.09.12 11:59

done

다욤
2021.09.19 16:28

done

찬찬이
2021.09.26 14:00

Holte
2021.10.06 20:25

왼쪽눈썹왁싱
2021.11.01 16:07

changhyeon
2021.12.17 10:52

done

하잉바
2022.01.02 20:21

moran
2022.01.03 15:48

dbnoid
2022.01.18 20:35

hijihyo
2022.01.25 14:42

호랭이띠
2022.01.31 19:41

done

acebed
2022.03.10 21:07

done

ChimChim
2022.03.25 23:55

kimgugu
2022.03.27 13:25

Kdata
2022.04.29 15:55

krooner
2022.05.19 20:36

khloee
2022.05.26 15:28

JCCHOI
2022.06.25 03:43

실습 텍스트 부분이 잘못 작성되어 있습니다. 이전 실습 내용인 Heatmap에 대한 설명인 것 같습니다.

기존 ------------------------------------
# 히트맵 그래프를 그릴 변수 지정 (train.corr() )
# corr() 함수는 데이터의 변수간의 상관도를 출력하는 함수 입니다.

변경 ------------------------------------
# Scatter Plot을 그릴 변수 지정 (x_data 에는 residual sugar변수, y_data 에는 density 변수)

양현모든지쓸어버리겠다
2022.07.08 10:31

dirno
2022.07.11 00:25

Wefe
2022.07.27 09:51

Done

카르루알룰
2023.01.09 10:31

done

highllight
2023.02.02 11:29

김시옷
2023.05.24 23:40

done+
질문 수정

이전 글
인덱싱을 위한 Pandas .iloc .loc 사용 방법 데이터 분석 및 조작을위한
Competition - Python 튜토리얼
Likes 4
Views 1,710
Comments 0
일 년 전
현재 글
Lv4 EDA 4/5 python 파이썬 다중공선성 Scatter plot
Competition - Python 튜토리얼
Likes 15
Views 4,499
Comments 24
3년 전
다음 글
다음 글이 존재하지 않습니다.