DACON Basic Shopping Mall Review Rating Classification

Algorithm | NLP | Classification | Review | Accuracy

  • moneyIcon -
  • 65 Users Completed
Closed

 

([Baseline] 2) 내용 중 2.토큰화 부분 소스 수정필요

2022.10.14 08:49 719 Views

#tokenized = [] # 데이터프레임의 한 컬럼으로 추가할 리스트   <--- 값이 초기화 되지 않음

def token(dataframe):

     tokenized = [] # 데이터프레임의 한 컬럼으로 추가할 리스트    <---  token(train) 실행 후 token(test) 실행시 값을 초기화

    for sentence in dataframe['reviews']: # 전처리된 리뷰들을 하나씩 꺼내옵니다

        tokens = okt.morphs(sentence)

        tokenize = " ".join(tokens) # tokens라는 리스트 안의 형태소들을 띄어쓰기로 분리된 하나의 문자열로 join시켜줍니다.

        tokenized.append(tokenize) # 형태소 단위로 띄어쓰기된 문자열을 최종 리스트에 추가해줍니다

        dataframe["tokenized_stem"] = pd.DataFrame(tokenized) # 리스트를 데이터프레임으로 변환해 tokenized_stem라는 컬럼명으로 추가해줍니다.

    

token(train)

token(test)


train.head() # 데이터 확인

Login Required
0 / 1000
DACONIO
2022.10.14 15:10

안녕하세요, 달릴레오님! 해당 내용 수정하였습니다.