Python 튜토리얼

Lv1 전처리 14/14 python 파이썬 TF-IDF (2)

2021.10.07 09:20 3,655 Views

안녕하세요 여러분! 🕵️‍♀️🕵️‍♀️

이번 시간에는 TF-IDF를 이용하여 청와대 청원 데이터를 벡터화 시켜 보도록 하겠습니다.

실습 순서는 다음과 같습니다.


  1. train 데이터를 이용해 TF-IDF 학습(fit)
  2. 학습(fit) 된 TF-IDF를 이용해 train 데이터 변환(transform)
  3. train 데이터로 학습(fit) 된 TF-IDF를 이용해 test 데이터 변환(transform)


그럼 바로 실습을 진행해보도록 하겠습니다 ❗❕

------------------------------------------------------------------------------------------------------------------------------------------------------------------

# 라이브러리 로딩

from sklearn.feature_extraction.text import TfidfVectorizer


#TF-IDF으로 train 데이터를 피처 벡터화 변환 수행


vect = TfidfVectorizer()

vect.fit(train['data'])

train_x =  vect.transform(train['data'])


print('train 데이터 사이즈', train_x.shape)


#Train Data로 fit()된 TF-IDF를 이용해 테스트 데이터를 Feature Vector화 변환 수행


test_x =  vect.transform(test['data'])

print('test 데이터 사이즈', test_x.shape)

------------------------------------------------------------------------------------------------------------------------------------------------------------------

[Colab 실습 링크]


↩️ 오늘의 파이썬 리스트


#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn  

# TfidfVectorizer

로그인이 필요합니다
0 / 1000
왼쪽눈썹왁싱
2021.11.03 11:51

페드로
2021.11.18 15:40

dbnoid
2022.01.20 13:20

acebed
2022.03.11 14:51

done

비회원
2022.04.07 11:19

krooner
2022.05.20 01:05

highllight
2023.02.12 17:37