Python 튜토리얼

기초

  • moneyIcon 상금 : 교육
  • 9,999명 D-100701

 

Lv4 전처리 복습 - (2) 👸🤴

2021.08.20 17:46 2,270 조회

파생 변수


머신러닝 모델링을 하다 보면 제한된 변수로 성능을 끌어 올리는 데는 한계가 있습니다.

특히 정형 데이터의 경우 데이터 증강은 제한적입니다. 그래서 더욱더 효율적인 파생 변수를 추가하는 것이 중요합니다.

파생 변수를 가장 간단하게 추가하는 방법은 연속형 변수를 범주형 변수로 변환하는 방법이 있습니다.

두번째로는 sklearn의 Polynominal features라이브러리를 이용해 기존 변수를 다항식 형태로 변환 시키는 방법이 있습니다.


연속형 변수 변환


연속형 변수를 범주형 변수로 변환 시키는 방법은 여러가지가 있겠지만 그중 2가지에 대해 알아 보겠습니다.

  1. 수치 범위 구간을 직접 레이블링 하기
  2. pandas의 cut() 함수로 레이블링 하기


특히 두 번째 pandas의 cut() 함수를 이용하면 손쉽게 연속형 변수를 범주형 변수로 변환 시킬 수 있습니다.


Polynominal features


PolynomialFeatures라이브러리는 sklearn에 내장되어 있는 라이브러리 입니다.  

이 라이브러리를 이용하면 현재 데이터를 다항식 형태로 변환 시킬 수 있습니다.


데이터에 x1,x2 변수가 있다 하면 PolynomialFeatures 라이브러리를 이용해

1, x1, x2, x1^2, x1*x2, x2^2 로 간단하게 변환 시킬 수 있습니다.


[Colab 실습 링크]


↩️ 오늘의 파이썬 리스트

#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선  #데이터분석 #데이터사이언티스트 #코랩 #Python  #colab #kaggle #pandas #numpy #sckit-learn # read_csv # 다중 공선성

로그인이 필요합니다
0 / 1000
Holte
2021.10.12 09:01

dbnoid
2022.01.19 07:18

acebed
2022.03.10 21:08

done

kimgugu
2022.03.28 14:00

Kdata
2022.05.02 15:26

krooner
2022.05.19 22:30

dirno
2022.07.14 15:48

highllight
2023.02.12 22:37

이전 글
인덱싱을 위한 Pandas .iloc .loc 사용 방법 데이터 분석 및 조작을위한
대회 - Python 튜토리얼
좋아요 4
조회 1,814
댓글 0
일 년 전
현재 글
Lv4 전처리 복습 - (2) 👸🤴
대회 - Python 튜토리얼
좋아요 6
조회 2,270
댓글 8
3년 전
다음 글
다음 글이 존재하지 않습니다.