분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Python 튜토리얼
Lv1 전처리 1/14 python 파이썬 텍스트 데이터 전처리 개요
안녕하세요. 여러분 👩🍳👨🍳
이번 시간부터는 텍스트 데이터를 전처리하는 과정에 대해 배워보겠습니다.
우선 텍스트 데이터 전처리에는 정해진 정답은 없으며 데이터와 목적에 따라 달라집니다. 이 과정은 주로 모델의 입력인 단어, 문장, 문서의 vector를 만들기 전에 진행 됩니다.
텍스트 데이터에서 분석에 오히려 방해가 되는 불필요한 문자나, 기호 등을 분석 전에 제거 하는 방법입니다.
예를 들어 ★,<,※ 와 같은 특수 기호나, <head> , & 와 같은 html,xml 태그 등을 제거 합니다.
대회의 목적과 분석자의 재량에 따라 불필요한 단어나 분석에 큰 의미가 없는 단어(ex. 은,는,이,가)를 STOPWORD(불용어)로 설정 후 데이터에서 제거 해주는 과정 입니다.
형태소 분석을 통해 문장을 형태소 단위의 토큰으로 분리합니다.
토큰(Token)이란 문법적으로 더 이상 나눌 수 없는 기본적인 언어요소를 뜻합니다. 텍스트 토큰화(Text Tokenization)란 말뭉치로부터 토큰을 분리하는 작업을 뜻합니다.
예를 들어, "There is an apple"이라는 말뭉치(Corpus)가 있을 때 이를 토큰화한다고 하면, "There", "is", "an", "apple"로 나뉩니다.
어간 추출(Stemming)이란 단어로 부터 어간(Stem)을 추출하는 작업을 뜻합니다. 어간 추출은 일부 철자가 훼손된 어근 단어를 추출합니다. 단어를 보고 어림짐작하여 어미를 잘라 어간을 추출하기 때문입니다.
일반적으로 어간 추출(Stemming)보다 표제어 추출(Lemmatization)이 더 정확히 어근 단어를 찾아줍니다. 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안하기 때문인데, 그래서 어간 추출보다 시간이 더 오래 걸립니다.
이번 시간에는 간략히 텍스트 데이터 전처리에 대해 알아보았습니다.
다음 시간부터는 실습을 통해 직접 청와대 청원 주제 데이터를 전처리 해보도록 하겠습니다.💨💨
↩️ 오늘의 파이썬 리스트
#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn # 클렌징 #필터링 # stopword #토큰화 #stemming #Lemmatization
✅
✅
✅
done
✅
✅
done
✅
✅
✅
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
✅