Python 튜토리얼

Lv1 전처리 9/14 python 파이썬 형태소 분석기 - (3)

2021.10.01 09:14 3,170 조회

안녕하세요 🤦‍♀️🤦‍♂️ 이번 시간과 다음 시간에는 형태소 분석기를 이용해 청와대 청원 데이터의 형태소를 분석하고 데이터의 형태소 중 조사를 제거하는 실습을 진행 해보도록 하겠습니다.

데이터에서 조사를 제거하는 이유는 조사는 큰 의미를 가지고 있지 않기 때문에 오히려 분석에 방해가 될 수 있습니다.

실습 순서는 다음과 같습니다.

  1. 텍스트 데이터의 형태소 별로 분리
  2. 형태소가 조사인 글자를 제외 하여 새로운 텍스트 생성
  3. 기존의 텍스트 데이터를 새로운 텍스트로 변경


--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

# 조사를 제거하기 위함 함수 정의 


def func(text):

  # 형태소 분석

  okt_pos = okt.pos(str(text),norm=True, stem=True)

  

  # 조사를 제거한 새로운 문자열 정의 

  new_word = ''


  for word,pos in okt_pos:

    

    # 품사가 조사가 아니면

    if pos != 'Josa':

      # 새로운 문자열에 추가 

      new_word+=word

  

  return new_word


train['data'] = train['data'].apply(lambda x : func(x))

test['data'] = test['data'].apply(lambda x : func(x))

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------


[Colab 실습 링크]


↩️ 오늘의 파이썬 리스트


👨‍💻데이스쿨 로 Up-Skill Re-Skill👩🏻‍💻


#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn  #텍스트 제거

로그인이 필요합니다
0 / 1000
왼쪽눈썹왁싱
2021.11.03 11:29

moran
2022.01.04 15:32

dbnoid
2022.01.20 13:03

acebed
2022.03.11 14:51

done

비회원
2022.04.07 10:48

krooner
2022.05.20 00:54

pysung
2022.09.18 11:02

done

baeksh0330
2022.10.02 17:50

highllight
2023.02.12 16:26