분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Python 튜토리얼
Lv4 EDA 4/5 python 파이썬 다중공선성 Scatter plot
다중공선선은 상관관계가 높은 독립변수들이 동시에 모델에 포함될 때 발생합니다.
만약 두 변수가 완벽하게 다중공선성에 걸려있다면, 같은 변수를 두 번 넣은 것이므로 모델이 결괏값을 추론하는 데 방해가 될 수 있습니다.
다중공선성을 확인 하는 방법은 크게 3가지가 있습니다.
이번 시간에는 첫번째 방법인 Scatter plot을 이용하여 다중공선성을 확인 해보겠습니다.
Scatter Plot(산점도 그래프)는 두 개의 연속형 변수에 대한 관계를 파악하는데 유용하게 사용할 수 있습니다.
Scatter Plot 예시
예시처럼 x 데이터가 증가함에 따라 y 데이터가 증가하는 경향을 보이는데, 이럴 경우 두 변수의 상관도가 높다고 해석 할 수 있습니다.
---------------------------------------------------------------------------------------------------------------------
# Scatter Plot을 그릴 변수 지정 (
x_data = train['residual sugar']
y_data = train['density']
# seaborn 의 scatterplot함수를 이용해 그래프를 그립니다.
sns.scatterplot(x = x_data, y = y_data )
---------------------------------------------------------------------------------------------------------------------
↩️ 오늘의 파이썬 리스트
#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn # read_csv
done
✅
✅
✅
done
✅
✅
✅
✅
done
done
✅
✅
✅
✅
✅
실습 텍스트 부분이 잘못 작성되어 있습니다. 이전 실습 내용인 Heatmap에 대한 설명인 것 같습니다.
기존 ------------------------------------
# 히트맵 그래프를 그릴 변수 지정 (train.corr() )
# corr() 함수는 데이터의 변수간의 상관도를 출력하는 함수 입니다.
변경 ------------------------------------
# Scatter Plot을 그릴 변수 지정 (x_data 에는 residual sugar변수, y_data 에는 density 변수)
✅
✅
Done
done
✅
done+
질문 수정
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
done