분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Baseline] 2. 품사 태깅 및 TF-IDF를 활용한 데이터 분석 & 예측
이번 베이스라인 코드에서는 Text를 전처리하고 TfidfVectorizer 을 적용하여 뉴스 그룹을 분류하는 모델의 성능 높이는 작업을 해봅시다!
* 코드를 어떻게 실행시켜야 할지 잘 모르시는 분은 아래 "코랩으로 데이콘 참여하기"를 먼저 봐주세요!
https://dacon.io/competitions/official/235836/talkboard/404882
* 데이터를 살펴보는 탐색적 데이터 분석 (Exploratory Data Analysis, EDA) 코드를 먼저 보고 오시면 좋습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
nltk.pos_tag() 메서드로 형태소 분석을 할 때 train의 'tokenized_stem' 열을 안 쓰고 'text' 열을 쓰는 건 어떤 이유가 있는 건가요?