Python 튜토리얼

Lv1 전처리 6/14 python 파이썬 특정 텍스트 제거 - (5)

2021.09.28 09:46 3,345 Views

안녕하세요. 이번시간에는 이전에 배웠던 특정 텍스트를 제거하는 방법을 이용해 청와대 청원 데이터에서 불필요한 텍스트를 제거해 보겠습니다.


청와대 청원 데이터를 살펴보면 아래 사진 처럼 \\n 와 같은 문자열이 많이 보입니다. 해당 문자열은 줄바꿈을 나타내는 의미이며 텍스트에서 불필요한 문자열이기 때문에 데이터 분석에 방해가 되지 않게 제거해주도록 하겠습니다.

모든 train 데이터에 한번에 replcae 함수를 적용하기 위해서는 apply() 함수, lambda() 함수를 함께 사용하면 됩니다. 사용 방법은 아래와 같습니다.


------------------------------------------------------------------------------------------------------------------------------------------------------------------

import pandas as pd


train = pd.read_csv('data/train.csv')

test = pd.read_csv('data/test.csv')


train.data[0]

#output

신혼부부위한 주택정책 보다 보육시설 늘려주세요.. 국민세금으로 일부를 위한 정책펴지 마시고\n보편적으로 모든국민이 수긍할 수 있는 복지정책 펴 주시길 바랍니다.\n저도 신혼부....


# train,test 데이터에서  '\\n' 단어를 제거해 주세요

# apply(lambda x : x를 변화시킬 형태)

train['data'] = train['data'].apply(lambda x : str(x).replace('\\n',' ')) # 텍스트 데이터에서 '\\n' 문자열을 ' '로 변경


train.data[0]

#output

신혼부부위한 주택정책 보다 보육시설 늘려주세요.. 국민세금으로 일부를 위한 정책펴지 마시고보편적으로 모든국민이 수긍할 수 있는 복지정책 펴 주시길 바랍니다.저도 신혼부....

------------------------------------------------------------------------------------------------------------------------------------------------------------------


[Colab 실습 링크]


↩️ 오늘의 파이썬 리스트


#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn  #텍스트 제거

로그인이 필요합니다
0 / 1000
왼쪽눈썹왁싱
2021.11.03 10:45

페드로
2021.11.18 10:07

replace 할 때 ' '과 ''이 차이가 없네요? 띄어쓰기는 안되는건가요?

moran
2022.01.04 15:21

dbnoid
2022.01.20 12:53

acebed
2022.03.11 14:51

done

비회원
2022.04.06 23:19

krooner
2022.05.20 00:46

pysung
2022.09.13 21:10

done

highllight
2023.02.12 15:48