분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[PrivateScore 0.65] TF-IDF + n-grams + over-sampling + 로지스틱
전처리는 기본적인 불용어를 처리하고 TF-IDF를 활용해서 빈도 높은 단어를 추출하고 그 단어를 특정하여 n-grams를 확인합니다. 로지스특 분류모델을 활용하여 분류해냅니다. 빈도가 높은 단어가 해당 분류의 주요단어로 인식하고 그 분류로 할당시킵니다. 일반이라는 한 분류가 데이터가 많아 다른 분류들을 오버샘플링을 하여 각 분류 데이터 분포를 일치시킨다는 아이디어였습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved