분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Python 튜토리얼
Lv1 전처리 6/14 python 파이썬 특정 텍스트 제거 - (5)
안녕하세요. 이번시간에는 이전에 배웠던 특정 텍스트를 제거하는 방법을 이용해 청와대 청원 데이터에서 불필요한 텍스트를 제거해 보겠습니다.
청와대 청원 데이터를 살펴보면 아래 사진 처럼 \\n 와 같은 문자열이 많이 보입니다. 해당 문자열은 줄바꿈을 나타내는 의미이며 텍스트에서 불필요한 문자열이기 때문에 데이터 분석에 방해가 되지 않게 제거해주도록 하겠습니다.
모든 train 데이터에 한번에 replcae 함수를 적용하기 위해서는 apply() 함수, lambda() 함수를 함께 사용하면 됩니다. 사용 방법은 아래와 같습니다.
------------------------------------------------------------------------------------------------------------------------------------------------------------------
import pandas as pd
train = pd.read_csv('data/train.csv')
test = pd.read_csv('data/test.csv')
train.data[0]
#output
신혼부부위한 주택정책 보다 보육시설 늘려주세요.. 국민세금으로 일부를 위한 정책펴지 마시고\n보편적으로 모든국민이 수긍할 수 있는 복지정책 펴 주시길 바랍니다.\n저도 신혼부....
# train,test 데이터에서 '\\n' 단어를 제거해 주세요
# apply(lambda x : x를 변화시킬 형태)
train['data'] = train['data'].apply(lambda x : str(x).replace('\\n',' ')) # 텍스트 데이터에서 '\\n' 문자열을 ' '로 변경
train.data[0]
#output
신혼부부위한 주택정책 보다 보육시설 늘려주세요.. 국민세금으로 일부를 위한 정책펴지 마시고보편적으로 모든국민이 수긍할 수 있는 복지정책 펴 주시길 바랍니다.저도 신혼부....
------------------------------------------------------------------------------------------------------------------------------------------------------------------
↩️ 오늘의 파이썬 리스트
#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn #텍스트 제거
replace 할 때 ' '과 ''이 차이가 없네요? 띄어쓰기는 안되는건가요?
✅
✅
done
✅
✅
done
✅
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
✅