Python 튜토리얼

Basic

교육
31 Users D-99907 to Close

Intro Task Solution

Lv1 전처리 1/14 python 파이썬 텍스트 데이터 전처리 개요

DACON.edu

2021.09.23 11:29 6,499 Views

안녕하세요. 여러분 👩‍🍳👨‍🍳

이번 시간부터는 텍스트 데이터를 전처리하는 과정에 대해 배워보겠습니다.

우선 텍스트 데이터 전처리에는 정해진 정답은 없으며 데이터와 목적에 따라 달라집니다. 이 과정은 주로 모델의 입력인 단어, 문장, 문서의 vector를 만들기 전에 진행 됩니다.

1️⃣ 클렌징

텍스트 데이터에서 분석에 오히려 방해가 되는 불필요한 문자나, 기호 등을 분석 전에 제거 하는 방법입니다.

예를 들어 ★,＜,※ 와 같은 특수 기호나, <head> , & 와 같은 html,xml 태그 등을 제거 합니다.

2️⃣필터링/ STOPWORD 지정

대회의 목적과 분석자의 재량에 따라 불필요한 단어나 분석에 큰 의미가 없는 단어(ex. 은,는,이,가)를 STOPWORD(불용어)로 설정 후 데이터에서 제거 해주는 과정 입니다.

3️⃣토큰화(Tokenization)

형태소 분석을 통해 문장을 형태소 단위의 토큰으로 분리합니다.

토큰(Token)이란 문법적으로 더 이상 나눌 수 없는 기본적인 언어요소를 뜻합니다. 텍스트 토큰화(Text Tokenization)란 말뭉치로부터 토큰을 분리하는 작업을 뜻합니다.

예를 들어, "There is an apple"이라는 말뭉치(Corpus)가 있을 때 이를 토큰화한다고 하면, "There", "is", "an", "apple"로 나뉩니다.

4️⃣Stemming(어간 추출) / Lemmatization(표제어 추출)

어간 추출(Stemming)이란 단어로 부터 어간(Stem)을 추출하는 작업을 뜻합니다. 어간 추출은 일부 철자가 훼손된 어근 단어를 추출합니다. 단어를 보고 어림짐작하여 어미를 잘라 어간을 추출하기 때문입니다.

일반적으로 어간 추출(Stemming)보다 표제어 추출(Lemmatization)이 더 정확히 어근 단어를 찾아줍니다. 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안하기 때문인데, 그래서 어간 추출보다 시간이 더 오래 걸립니다.

이번 시간에는 간략히 텍스트 데이터 전처리에 대해 알아보았습니다.

다음 시간부터는 실습을 통해 직접 청와대 청원 주제 데이터를 전처리 해보도록 하겠습니다.💨💨

↩️ 오늘의 파이썬 리스트

#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn # 클렌징 #필터링 # stopword #토큰화 #stemming #Lemmatization

11 Comments

comment

0 / 1000

다욤

2021.09.26 15:47

✅

왼쪽눈썹왁싱

2021.11.03 10:26

✅

moran

2022.01.04 14:48

✅

dbnoid

2022.01.20 12:28

✅

acebed

2022.03.11 14:50

done

비회원

2022.04.06 14:03

✅

krooner

2022.05.20 00:40

✅

pysung

2022.09.11 11:26

done

baeksh0330

2022.10.02 17:36

✅

센트럴푸

2022.11.07 11:18

✅

highllight

2023.02.12 15:16

✅

📣 The comment input field has been moved to the top of the comment list!

List

인덱싱을 위한 Pandas .iloc .loc 사용 방법 데이터 분석 및 조작을위한

Competition - Python 튜토리얼

Current

Lv1 전처리 1/14 python 파이썬 텍스트 데이터 전처리 개요

Competition - Python 튜토리얼

Likes 4

Comments 11

5년 전

No Next Post