분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Python 튜토리얼
Lv4 EDA 복습 🧓👴
안녕하세요 👋 이번 시간에는 LV4의 EDA 내용을 복습해 보겠습니다.
seaborn의 pairplot은 데이터에 들어 있는 각 컬럼(열)들의 모든 상관 관계를 출력합니다.
3차원 이상의 데이터라면 pairplot 함수를 사용해 분포도를 그리면 손쉽게 모든 변수간의 상관관계를 얻을 수 있습니다.
pairplot은 grid(격자) 형태로 각 집합의 조합에 대해 히스토그램과 분포도를 그립니다.
seaborn의 distplot 함수는 데이터의 히스토그램을 그려주는 함수입니다.
히스토그램이란 수치형 데이터 분포를 정확하게 표현해주는 시각화 방법입니다.
변수를 여러 개의 bin으로 자르고(사용자 지정) bin당 관측수를 막대그래프로 표현합니다.
히트맵은 두개의 범주형(Categorical) 변수에 대한 반응변수의 크기를 색깔의 변화로 표현하는 것입니다.
예를 들어, 일 별 기온을 보고자 할때 , 매일 온도를 히트맵으로 표현하여 온도 변화의 추이를 볼 수도 있습니다.
데이터 분석 과정에서는 변수별 상관관계를 확인 할때 히트맵 그래프를 많이 사용합니다.
( 히트맵 그래프 예시 )
다중공선선은 상관관계가 높은 독립변수들이 동시에 모델에 포함될 때 발생합니다.
만약 두 변수가 완벽하게 다중공선성에 걸려있다면, 같은 변수를 두 번 넣은 것이므로 모델이 결괏값을 추론하는 데 방해가 될 수 있습니다.
다중공선성을 확인 하는 방법은 크게 3가지가 있습니다.
이번 시간에는 첫번째 방법인 Scatter plot을 이용하여 다중공선성을 확인 해보겠습니다.
Scatter Plot(산점도 그래프)는 두 개의 연속형 변수에 대한 관계를 파악하는데 유용하게 사용할 수 있습니다.
Scatter Plot 예시
예시처럼 x 데이터가 증가함에 따라 y 데이터가 증가하는 경향을 보이는데, 이럴 경우 두 변수의 상관도가 높다고 해석 할 수 있습니다.
VIF는 변수간의 다중공선성을 진단하는 수치이며 범위 1부터 무한대입니다.
통계학에서는 VIF 값이 10이상이면 해당 변수가 다중공선성이 잇는 것으로 판단 합니다.
VIF를 구하는 수식은 VIFk = 1 / (1 - Rj2) 입니다.
여기서 VIFk 는 k번째 변수의 VIF 값을 의미하고, Rj2 는 회귀분석에서 사용하는 결정계수 입니다.
↩️ 오늘의 파이썬 리스트
#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn # read_csv
✅
✅
✅
done
✅
✅
✅
✅
done
done
done
✅
✅
✅
✅
✅
✅
✅
done+
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
done