Python 튜토리얼

Lv1 전처리 python 파이썬 형태소 분석기 복습

2021.10.08 17:15 2,784 Views

형태소 분석기❓❔


우선 형태소 분석이란 "형태소를 비롯하여, 어근, 접두사/접미사, 품사(POS) 등 다양한 언어적 속성의 구조를 파악하는 것"을 말합니다.

형태소분석은 왜 필요한 걸까요? 그것은 언어의 '모호성' 때문입니다. 예시를 살펴보며 알아보겠습니다. 아래 문장의 띄어쓰기를 고쳐야 한다고 가정해봅시다.


아버지가방에들어가신다


위 문장은 띄어쓰기 경계가 모호합니다. "아버지가 에 들어가신다."로 해석 될 수도 있고  "아버지 가방에 들어가신다."로 해석 될 수도 있기 때문입니다.


이 차이를 구분하기 위해서는 문장 뿐만이 아니라, 추가적인 정보가 필요합니다.

일반적으로, "가방에 들어가신다" 라는 표현보다는 "방에 들어가신다"라는 표현을 훨씬 더 많이 사용합니다.  그렇다면, 띄어쓰기는 "아버지가 방에 들어가신다."로 하는 것이 더 적절하겠죠.

즉, 언어적 모호성을 해결하기 위해서는 통계 정보가 필요하다는 것입니다.

그런데, 문장 단위로 통계를 내려니 경우의 수가 너무나 많습니다. 따라서, 모든 말의 통계 정보를 효과적으로 계산하기 위해선 형태소 단위의 정리가 필요합니다. 예를 들어 '아버지'라는 명사 뒤에 '가'라는 조사가 나올 확률이 50%, '가방'이라는 명사가 나올 확률이 10%라고 정리를 해 놓으면, 판단이 쉬워지는 것이죠.

한국어 형태소 분석기의 역할은 보통 여기까지 입니다. 미리 계산해 놓은 통계 정보를 바탕으로 문장에 쓰인 형태소들의 정체가 무엇인지 표시해주는 것입니다. 예를 들어 위 문장을 형태소 분석기에 넣고 돌리면, 아래와 비슷한 결과가 나올 것입니다.


아버지(명사), (조사), (명사), (조사), 들어가(동사), 신다(조사), .(마침표)


이렇게 한글 텍스트의 형태소를 분석해주는 형태소 분석기로는 Okt, Komoran, Kkma, Mecab 등이 있습니다.


실습 할 형태소 분석기는 Okt, Komoran, Kkma 총 3개 입니다.


형태소 분석기를 이용해 형태소를 분석하는 방법은 다음과 같습니다.

  1. 라이브러리 설치
  2. 형태소 분석기 정의
  3. 형태소 분석

순서에 맞게 실습을 진행해 보겠습니다.



[Colab 실습 링크]


↩️ 오늘의 파이썬 리스트


#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn #konlpy #형태소분석기 #okt #kkma #komoran