Python 튜토리얼

기초

  • moneyIcon 상금 : 교육
  • 9,999명 D-100719

 

Lv4 전처리 1/9 python 파이썬 다중공선성 해결 - 변수 정규화

2021.08.09 15:44 4,014 조회

다중공선성 해결

이전 LV4 EDA 시간을 통해 다중공선성이란 무엇인지, 다중공선선을 확인하는 방법에 대해 알아 보았습니다.

이번시간 부터는 다중공선성을 일으키는 변수들을 어떻게 다뤄줘야 할지 에대해 알아보도록 하겠습니다.  


다중공선성을 해결 하는 방법은 크게 3가지가 있습니다.

  1. 변수 정규화
  2. 변수 제거
  3. PCA(주성분 분석)


이번 시간에는 정규화를 적용하기 전 분산 팽창 요인(VIF)를 확인하고 정규화를 적용한 후 분산 팽창 요인을 확인해 서로 비교해도록 하겠습니다.


정규화 관련 설명은 이전 게시글인 아래 링크를 통해 확인 할 수 있습니다.

링크


--------------------------------------------------------------------------------------------------------------------------------------------

# train 데이터의 VIF 계수 출력


vif = pd.DataFrame()

vif["VIF Factor"] = [variance_inflation_factor(train.values, i) for i in range(train.shape[1])]

vif["features"] = train.columns 

vif


# MinMaxScaler를 통해 변수 변환 

scaler = MinMaxScaler()

scaler.fit(train) # fit 함수를 이용해  scaler 학습

train_scale = scaler.transform(train)# "scaler"를 통해 train의 수치들을 변환 시키고 train_scale에 저장 해 주세요.



# Sclaer 를 통해 변환된 데이터의 VIF 확인

new_train_df =  pd.DataFrame(train_scale)

new_train_df.columns = train.columns


vif = pd.DataFrame()

vif["VIF Factor"] = [variance_inflation_factor(new_train_df.values, i) for i in range(new_train_df.shape[1])]

vif["features"] = new_train_df.columns 

vif

--------------------------------------------------------------------------------------------------------------------------------------------

[Colab 실습 링크]


↩️ 오늘의 파이썬 리스트

#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선  #데이터분석 #데이터사이언티스트 #코랩 #Python  #colab #kaggle #pandas #numpy #sckit-learn # read_csv #스케일링 #MinMaxScailing


로그인이 필요합니다
0 / 1000
그린티
2021.09.12 12:27

done

다욤
2021.09.19 17:36

done

찬찬이
2021.09.27 09:30

Holte
2021.10.06 21:02

왼쪽눈썹왁싱
2021.11.01 17:14

changhyeon
2021.12.29 14:20

done

moran
2022.01.03 16:07

dbnoid
2022.01.18 20:41

hijihyo
2022.01.25 15:19

done

호랭이띠
2022.01.31 20:08

done

acebed
2022.03.10 21:07

done

하랴랴
2022.03.15 15:40

done

kimgugu
2022.03.27 14:17

ChimChim
2022.03.29 23:44

Kdata
2022.05.02 14:13

krooner
2022.05.19 21:07

dirno
2022.07.11 14:35

highllight
2023.02.02 12:18

김시옷
2023.05.25 00:12

done+

이전 글
인덱싱을 위한 Pandas .iloc .loc 사용 방법 데이터 분석 및 조작을위한
대회 - Python 튜토리얼
좋아요 4
조회 1,710
댓글 0
일 년 전
현재 글
Lv4 전처리 1/9 python 파이썬 다중공선성 해결 - 변수 정규화
대회 - Python 튜토리얼
좋아요 8
조회 4,014
댓글 19
3년 전
다음 글
다음 글이 존재하지 않습니다.