DACON Basic Shopping Mall Review Rating Classification

Algorithm | NLP | Classification | Review | Accuracy

Closed

Submission

([Baseline] 2) 내용 중 2.토큰화 부분 소스 수정필요

2022.10.14 08:49 719 Views

#tokenized = [] # 데이터프레임의 한 컬럼으로 추가할 리스트 <--- 값이 초기화 되지 않음

def token(dataframe):

tokenized = [] # 데이터프레임의 한 컬럼으로 추가할 리스트 <--- token(train) 실행 후 token(test) 실행시 값을 초기화

for sentence in dataframe['reviews']: # 전처리된 리뷰들을 하나씩 꺼내옵니다

tokens = okt.morphs(sentence)

tokenize = " ".join(tokens) # tokens라는 리스트 안의 형태소들을 띄어쓰기로 분리된 하나의 문자열로 join시켜줍니다.

tokenized.append(tokenize) # 형태소 단위로 띄어쓰기된 문자열을 최종 리스트에 추가해줍니다

dataframe["tokenized_stem"] = pd.DataFrame(tokenized) # 리스트를 데이터프레임으로 변환해 tokenized_stem라는 컬럼명으로 추가해줍니다.

token(train)

token(test)

train.head() # 데이터 확인

comment

0 / 1000

DACONIO

2022.10.14 15:10

안녕하세요, 달릴레오님! 해당 내용 수정하였습니다.

Current

([Baseline] 2) 내용 중 2.토큰화 부분 소스 수정필요

Competition - [기업은행 혁신리그] 쇼핑몰 리뷰 평점 분류 경진대회

Likes 1

Comments 1

4년 전