Python 튜토리얼

기초

  • moneyIcon Prize : 교육
  • 9,999명 D-100719

 

Lv4 전처리 4/9 python 파이썬 다중공선성 해결 - PCA (2)

2021.08.11 17:15 2,551 Views

안녕하세요 🙋‍♂️🙋‍♀️

지난 시간에는 PCA의 상위 개념인 차원 축소와 feature extraction에 대해 알아보았습니다. 이번 시간에는 PCA의 개념에 대해 알아 보도록 하겠습니다.✨


차원 축소 기법 중 가장 대표적인 기법인 PCA는 여러 변수 간에 존재하는 상관관계를 이용해 이를 대표하는 주성분을 추출해 차원을 축소하는 기법입니다.

PCA는 기존 데이터의 정보 유실 최소화를 위해 가장 높은 분산을 가지는 데이터 축을 찾아 해당 축으로 차원을 축소합니다.


키와 몸무게 2개의 피처를 가지고 있는 데이터셋이 다음과 같이 구성 되어 있다고 가정 해보겠습니다.

이 2개의 피처를 한개의 주성분을 가진 데이터 셋으로 차원축소하는 과정은 다음과 같습니다.



PCA는 제일 먼저 가장 큰 데이터 변동성을 기반으로 첫 번째 벡터 축을 생성하고,

두 번째 축은 이 벡터 축에 직각이 되는 벡터(직교 벡터)를 축으로 합니다.

세 번째 축은 다시 두 번째 축과 직각이 되는 벡터를 설정하는 방식으로 축을 생성합니다.

이렇게 생성된 벡터 축에 원본 데이터를 투영하면 벡터 축의 개수 만큼의 차원으로 원본 데이터가 차원 축소 됩니다.


요약하면 PCA는 많은 속성으로 구성된 원본 데이터를 그 핵심을 구성하는 데이터로 압축한 것 입니다.


다음 시간에는 iris 데이터 셋을 이용해 PCA를 실습 해보도록 하겠습니다.🧃


로그인이 필요합니다
0 / 1000
그린티
2021.09.12 12:50

done

다욤
2021.09.19 18:21

done

Holte
2021.10.06 21:45

changhyeon
2021.12.29 15:02

done

moran
2022.01.03 16:16

dbnoid
2022.01.18 20:47

hijihyo
2022.01.25 17:15

호랭이띠
2022.01.31 22:19

acebed
2022.03.10 21:07

done

하랴랴
2022.03.15 16:02

done

kimgugu
2022.03.27 14:22

Kdata
2022.05.02 14:28

krooner
2022.05.19 21:58

khloee
2022.05.26 15:33

dirno
2022.07.11 15:24

카르루알룰
2023.01.09 11:54

done

highllight
2023.02.02 13:59

김시옷
2023.05.25 00:57

done+

이전 글
인덱싱을 위한 Pandas .iloc .loc 사용 방법 데이터 분석 및 조작을위한
Competition - Python 튜토리얼
Likes 4
Views 1,709
Comments 0
일 년 전
현재 글
Lv4 전처리 4/9 python 파이썬 다중공선성 해결 - PCA (2)
Competition - Python 튜토리얼
Likes 8
Views 2,551
Comments 18
3년 전
다음 글
다음 글이 존재하지 않습니다.