분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
([Baseline] 2) 내용 중 2.토큰화 부분 소스 수정필요
#tokenized = [] # 데이터프레임의 한 컬럼으로 추가할 리스트 <--- 값이 초기화 되지 않음
def token(dataframe):
tokenized = [] # 데이터프레임의 한 컬럼으로 추가할 리스트 <--- token(train) 실행 후 token(test) 실행시 값을 초기화
for sentence in dataframe['reviews']: # 전처리된 리뷰들을 하나씩 꺼내옵니다
tokens = okt.morphs(sentence)
tokenize = " ".join(tokens) # tokens라는 리스트 안의 형태소들을 띄어쓰기로 분리된 하나의 문자열로 join시켜줍니다.
tokenized.append(tokenize) # 형태소 단위로 띄어쓰기된 문자열을 최종 리스트에 추가해줍니다
dataframe["tokenized_stem"] = pd.DataFrame(tokenized) # 리스트를 데이터프레임으로 변환해 tokenized_stem라는 컬럼명으로 추가해줍니다.
token(train)
token(test)
train.head() # 데이터 확인
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요, 달릴레오님! 해당 내용 수정하였습니다.