Python 튜토리얼

Lv1 전처리 12/14 python 파이썬 CountVectorizer - (2)

2021.10.05 14:12 3,202 조회

안녕하세요 여러분! 🕵️‍♀️🕵️‍♀️

이번 시간에는 CountVectorizer를 이용하여 청와대 청원 데이터를 벡터화 시켜 보도록 하겠습니다.

실습 순서는 다음과 같습니다.


  1. train 데이터를 이용해 CountVectorizer 학습(fit)
  2. 학습(fit) 된 CountVectorizer를 이용해 train 데이터 변환(transform)
  3. train 데이터로 학습(fit) 된 CountVectorizer를 이용해 test 데이터 변환(transform)


그럼 바로 실습을 진행해보도록 하겠습니다 ❗❕

------------------------------------------------------------------------------------------------------------------------------------------------------------------

from sklearn.feature_extraction.text import CountVectorizer


#Count Vectorization으로 train 데이터를 피처 벡터화 변환 수행

vect = CountVectorizer()

vect.fit(train['data'])

train_x =  vect.transform(train['data'])


print('train 데이터 사이즈', train_x.shape)


#train Data로 fit()된 ConVectorizer를 이용해 테스트 데이터를 Feature Vector화 변환 수행

test_x =  vect.transform(test['data'])

print('test 데이터 사이즈', test_x.shape)

------------------------------------------------------------------------------------------------------------------------------------------------------------------

[Colab 실습 링크]


↩️ 오늘의 파이썬 리스트


#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn  #CountVectorizer


로그인이 필요합니다
0 / 1000
왼쪽눈썹왁싱
2021.11.03 11:45

페드로
2021.11.18 15:25



감사합니다.

moran
2022.01.04 15:43

dbnoid
2022.01.20 13:16

acebed
2022.03.11 14:51

done

비회원
2022.04.07 11:09

krooner
2022.05.20 01:02

highllight
2023.02.12 16:39