Python 튜토리얼

기초

상금 : 교육
2021.04.26 ~ 2300.01.01 23:01 + Google Calendar
31명 D-100250

소개 문제 해답

Lv1 전처리 1/14 python 파이썬 텍스트 데이터 전처리 개요

DACON.edu

2021.09.23 11:29 5,033 조회

안녕하세요. 여러분 👩‍🍳👨‍🍳

이번 시간부터는 텍스트 데이터를 전처리하는 과정에 대해 배워보겠습니다.

우선 텍스트 데이터 전처리에는 정해진 정답은 없으며 데이터와 목적에 따라 달라집니다. 이 과정은 주로 모델의 입력인 단어, 문장, 문서의 vector를 만들기 전에 진행 됩니다.

1️⃣ 클렌징

텍스트 데이터에서 분석에 오히려 방해가 되는 불필요한 문자나, 기호 등을 분석 전에 제거 하는 방법입니다.

예를 들어 ★,＜,※ 와 같은 특수 기호나, <head> , & 와 같은 html,xml 태그 등을 제거 합니다.

2️⃣필터링/ STOPWORD 지정

대회의 목적과 분석자의 재량에 따라 불필요한 단어나 분석에 큰 의미가 없는 단어(ex. 은,는,이,가)를 STOPWORD(불용어)로 설정 후 데이터에서 제거 해주는 과정 입니다.

3️⃣토큰화(Tokenization)

형태소 분석을 통해 문장을 형태소 단위의 토큰으로 분리합니다.

토큰(Token)이란 문법적으로 더 이상 나눌 수 없는 기본적인 언어요소를 뜻합니다. 텍스트 토큰화(Text Tokenization)란 말뭉치로부터 토큰을 분리하는 작업을 뜻합니다.

예를 들어, "There is an apple"이라는 말뭉치(Corpus)가 있을 때 이를 토큰화한다고 하면, "There", "is", "an", "apple"로 나뉩니다.

4️⃣Stemming(어간 추출) / Lemmatization(표제어 추출)

어간 추출(Stemming)이란 단어로 부터 어간(Stem)을 추출하는 작업을 뜻합니다. 어간 추출은 일부 철자가 훼손된 어근 단어를 추출합니다. 단어를 보고 어림짐작하여 어미를 잘라 어간을 추출하기 때문입니다.

일반적으로 어간 추출(Stemming)보다 표제어 추출(Lemmatization)이 더 정확히 어근 단어를 찾아줍니다. 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안하기 때문인데, 그래서 어간 추출보다 시간이 더 오래 걸립니다.

이번 시간에는 간략히 텍스트 데이터 전처리에 대해 알아보았습니다.

다음 시간부터는 실습을 통해 직접 청와대 청원 주제 데이터를 전처리 해보도록 하겠습니다.💨💨

↩️ 오늘의 파이썬 리스트

#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn # 클렌징 #필터링 # stopword #토큰화 #stemming #Lemmatization

댓글 11개

로그인이 필요합니다

comment

0 / 1000

다욤

2021.09.26 15:47

✅

왼쪽눈썹왁싱

2021.11.03 10:26

✅

moran

2022.01.04 14:48

✅

dbnoid

2022.01.20 12:28

✅

acebed

2022.03.11 14:50

done

비회원

2022.04.06 14:03

✅

krooner

2022.05.20 00:40

✅

pysung

2022.09.11 11:26

done

baeksh0330

2022.10.02 17:36

✅

센트럴푸

2022.11.07 11:18

✅

highllight

2023.02.12 15:16

✅

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!

목록으로

인덱싱을 위한 Pandas .iloc .loc 사용 방법 데이터 분석 및 조작을위한

대회 - Python 튜토리얼

2년 전

현재 글

Lv1 전처리 1/14 python 파이썬 텍스트 데이터 전처리 개요

대회 - Python 튜토리얼

4년 전

다음 글이 존재하지 않습니다.