분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Python 튜토리얼
Lv4 전처리 1/9 python 파이썬 다중공선성 해결 - 변수 정규화
이전 LV4 EDA 시간을 통해 다중공선성이란 무엇인지, 다중공선선을 확인하는 방법에 대해 알아 보았습니다.
이번시간 부터는 다중공선성을 일으키는 변수들을 어떻게 다뤄줘야 할지 에대해 알아보도록 하겠습니다.
다중공선성을 해결 하는 방법은 크게 3가지가 있습니다.
이번 시간에는 정규화를 적용하기 전 분산 팽창 요인(VIF)를 확인하고 정규화를 적용한 후 분산 팽창 요인을 확인해 서로 비교해도록 하겠습니다.
정규화 관련 설명은 이전 게시글인 아래 링크를 통해 확인 할 수 있습니다.
--------------------------------------------------------------------------------------------------------------------------------------------
# train 데이터의 VIF 계수 출력
vif = pd.DataFrame()
vif["VIF Factor"] = [variance_inflation_factor(train.values, i) for i in range(train.shape[1])]
vif["features"] = train.columns
vif
# MinMaxScaler를 통해 변수 변환
scaler = MinMaxScaler()
scaler.fit(train) # fit 함수를 이용해 scaler 학습
train_scale = scaler.transform(train)# "scaler"를 통해 train의 수치들을 변환 시키고 train_scale에 저장 해 주세요.
# Sclaer 를 통해 변환된 데이터의 VIF 확인
new_train_df = pd.DataFrame(train_scale)
new_train_df.columns = train.columns
vif = pd.DataFrame()
vif["VIF Factor"] = [variance_inflation_factor(new_train_df.values, i) for i in range(new_train_df.shape[1])]
vif["features"] = new_train_df.columns
vif
--------------------------------------------------------------------------------------------------------------------------------------------
↩️ 오늘의 파이썬 리스트
#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn # read_csv #스케일링 #MinMaxScailing
done
✅
✅
✅
done
✅
✅
done
done
done
done
✅
✅
✅
✅
✅
✅
done+
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
done