Python 튜토리얼

Lv1 전처리 1/14 python 파이썬 텍스트 데이터 전처리 개요

2021.09.23 11:29 4,208 조회

안녕하세요. 여러분 👩‍🍳👨‍🍳

이번 시간부터는 텍스트 데이터를 전처리하는 과정에 대해 배워보겠습니다.

우선 텍스트 데이터 전처리에는 정해진 정답은 없으며 데이터와 목적에 따라 달라집니다. 이 과정은 주로 모델의 입력인 단어, 문장, 문서의 vector를 만들기 전에 진행 됩니다.


1️⃣ 클렌징


텍스트 데이터에서 분석에 오히려 방해가 되는 불필요한 문자나, 기호 등을 분석 전에 제거 하는 방법입니다.

예를 들어 ★,<,※ 와 같은 특수 기호나, <head> , &amp; 와 같은 html,xml 태그 등을 제거 합니다.


2️⃣필터링/ STOPWORD 지정


대회의 목적과 분석자의 재량에 따라 불필요한 단어나 분석에 큰 의미가 없는 단어(ex. 은,는,이,가)를 STOPWORD(불용어)로 설정 후 데이터에서 제거 해주는 과정 입니다.


3️⃣토큰화(Tokenization)


형태소 분석을 통해 문장을 형태소 단위의 토큰으로 분리합니다.

토큰(Token)이란 문법적으로 더 이상 나눌 수 없는 기본적인 언어요소를 뜻합니다. 텍스트 토큰화(Text Tokenization)란 말뭉치로부터 토큰을 분리하는 작업을 뜻합니다.

예를 들어, "There is an apple"이라는 말뭉치(Corpus)가 있을 때 이를 토큰화한다고 하면, "There", "is", "an", "apple"로 나뉩니다.


4️⃣Stemming(어간 추출) / Lemmatization(표제어 추출)


어간 추출(Stemming)이란 단어로 부터 어간(Stem)을 추출하는 작업을 뜻합니다. 어간 추출은 일부 철자가 훼손된 어근 단어를 추출합니다. 단어를 보고 어림짐작하여 어미를 잘라 어간을 추출하기 때문입니다.

일반적으로 어간 추출(Stemming)보다 표제어 추출(Lemmatization)이 더 정확히 어근 단어를 찾아줍니다. 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안하기 때문인데, 그래서 어간 추출보다 시간이 더 오래 걸립니다.


이번 시간에는 간략히 텍스트 데이터 전처리에 대해 알아보았습니다.

다음 시간부터는 실습을 통해 직접 청와대 청원 주제 데이터를 전처리 해보도록 하겠습니다.💨💨


↩️ 오늘의 파이썬 리스트


#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선  #데이터분석 #데이터사이언티스트 #코랩 #Python  #colab #kaggle #pandas #numpy #sckit-learn # 클렌징 #필터링 # stopword #토큰화 #stemming #Lemmatization

로그인이 필요합니다
0 / 1000
다욤
2021.09.26 15:47

왼쪽눈썹왁싱
2021.11.03 10:26

moran
2022.01.04 14:48

dbnoid
2022.01.20 12:28

acebed
2022.03.11 14:50

done

비회원
2022.04.06 14:03

krooner
2022.05.20 00:40

pysung
2022.09.11 11:26

done

baeksh0330
2022.10.02 17:36

센트럴푸
2022.11.07 11:18

highllight
2023.02.12 15:16