뉴스 그룹 분류 AI 해커톤

NLP | Accuracy

  • moneyIcon Prize : 참가시 최소 50 XP, 특별상 데이콘 후드
  • 437명 마감

 

[Baseline] 2. 품사 태깅 및 TF-IDF를 활용한 데이터 분석 & 예측

2022.04.11 10:05 3,651 Views language

이번 베이스라인 코드에서는 Text를 전처리하고 TfidfVectorizer 을 적용하여  뉴스 그룹을 분류하는 모델의 성능 높이는 작업을 해봅시다!

* 코드를 어떻게 실행시켜야 할지 잘 모르시는 분은 아래 "코랩으로 데이콘 참여하기"를 먼저 봐주세요!
https://dacon.io/competitions/official/235836/talkboard/404882

* 데이터를 살펴보는 탐색적 데이터 분석 (Exploratory Data Analysis, EDA) 코드를 먼저 보고 오시면 좋습니다.

Code
로그인이 필요합니다
0 / 1000
쉬림프
2022.04.11 21:56

nltk.pos_tag() 메서드로 형태소 분석을 할 때 train의 'tokenized_stem' 열을 안 쓰고 'text' 열을 쓰는 건 어떤 이유가 있는 건가요?