분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Python 튜토리얼
Lv1 전처리 11/14 python 파이썬 CountVectorizer - (1)
안녕하세요 여러분! 👨🏫👩🏫
이번시간에는 BOW의 카운트 기반 벡터화(CountVectorizer)에 대해 알아 보겠습니다.
Bag of Words를 설명하면서 텍스트 데이터를 숫자형 데이터로 변환하는 방법에 대해 알아보았습니다. 복습
그와 마찬가지로, 단어에 값을 부여할 때 각 문장에서 해당 단어가 나타나는 횟수
즉, Count를 부여하는 경우를 카운트 벡터화라고 합니다. 카운트 벡터화에서는 값이 높을수록 중요한 단어로 인식됩니다.
카운트 기반 벡터화는 사이킷런의 CountVectorizer 클래스를 활용하여 적용할 수 있습니다.
아래 코드는 CountVectorzier를 활용하여 한 문장을 BOW로 만드는 코드입니다.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
'This is the first document.',
'This is the second second document.',
'And the third one.',
'Is this the first document?',
'The last document?',
]
vect = CountVectorizer()
print(vect.fit_transform(corpus).toarray()) # corpus 리스트 내부 텍스트로 부터 각 단어의 빈도 수를 기록합니다.
print(vect.vocabulary_)# 각 단어의 인덱스가 어떻게 부여되었는지를 보여줍니다.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
output :
[[0 1 1 1 0 0 0 1 0 1]
[0 1 0 1 0 0 2 1 0 1]
[1 0 0 0 0 1 0 1 1 0]
[0 1 1 1 0 0 0 1 0 1]
[0 1 0 0 1 0 0 1 0 0]]
{'this': 9, 'is': 3, 'the': 7, 'first': 2, 'document': 1, 'second': 6, 'and': 0, 'third': 8, 'one': 5, 'last': 4}
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
다음 시간에는 CountVectorizer()와 청와대 청원 데이터를 이용하여 실습을 진행해 보도록 하겠습니다.💫💫
↩️ 오늘의 파이썬 리스트
#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn #CountVectorizer
✅
✅
done
✅
✅
✅
✅
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
✅