#오늘의 파이썬 #1일1오파 #파이썬 # python

매일 오전10시 업로드, Dacon Daily Python Camp. 1일1오파 격파하기!

  • moneyIcon Prize : 교육
  • 30Team D-101398

 

Lv1 전처리 7/14 python 파이썬 형태소 분석기 - (1)

2021.09.29 14:22 791 Views

형태소 분석기❓❔


우선 형태소 분석이란 "형태소를 비롯하여, 어근, 접두사/접미사, 품사(POS) 등 다양한 언어적 속성의 구조를 파악하는 것"을 말합니다.

형태소분석은 왜 필요한 걸까요? 그것은 언어의 '모호성' 때문입니다. 예시를 살펴보며 알아보겠습니다. 아래 문장의 띄어쓰기를 고쳐야 한다고 가정해봅시다.


아버지가방에들어가신다


위 문장은 띄어쓰기 경계가 모호합니다. "아버지가 에 들어가신다."로 해석 될 수도 있고  "아버지 가방에 들어가신다."로 해석 될 수도 있기 때문입니다.


이 차이를 구분하기 위해서는 문장 뿐만이 아니라, 추가적인 정보가 필요합니다.

일반적으로, "가방에 들어가신다" 라는 표현보다는 "방에 들어가신다"라는 표현을 훨씬 더 많이 사용합니다.  그렇다면, 띄어쓰기는 "아버지가 방에 들어가신다."로 하는 것이 더 적절하겠죠.

즉, 언어적 모호성을 해결하기 위해서는 통계 정보가 필요하다는 것입니다.

그런데, 문장 단위로 통계를 내려니 경우의 수가 너무나 많습니다. 따라서, 모든 말의 통계 정보를 효과적으로 계산하기 위해선 형태소 단위의 정리가 필요합니다. 예를 들어 '아버지'라는 명사 뒤에 '가'라는 조사가 나올 확률이 50%, '가방'이라는 명사가 나올 확률이 10%라고 정리를 해 놓으면, 판단이 쉬워지는 것이죠.

한국어 형태소 분석기의 역할은 보통 여기까지 입니다. 미리 계산해 놓은 통계 정보를 바탕으로 문장에 쓰인 형태소들의 정체가 무엇인지 표시해주는 것입니다. 예를 들어 위 문장을 형태소 분석기에 넣고 돌리면, 아래와 비슷한 결과가 나올 것입니다.


아버지(명사), (조사), (명사), (조사), 들어가(동사), 신다(조사), .(마침표)


이렇게 한글 텍스트의 형태소를 분석해주는 형태소 분석기로는 Okt, Komoran, Kkma, Mecab 등이 있습니다.


다음 시간에는 4개의 형태소 분석기를 이용해 직접 형태소를 분석해보도록 하겠습니다.



↩️ 오늘의 파이썬 리스트


#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn #형태소분석기 #한글형태소분석기

왼쪽눈썹왁싱
2021.11.03 10:47

페드로
2021.11.18 10:09

녹삭
2021.12.20 20:55

done

moran
2022.01.04 15:22

dbnoid
2022.01.20 12:58

acebed
2022.03.11 14:51

done

Milhaud
2022.04.06 23:21

krooner
2022.05.20 00:48

로그인이 필요합니다
0 / 1000