분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[PrivateScore 0.65] TF-IDF + n-grams + over-sampling + 로지스틱
전처리는 기본적인 불용어를 처리하고 TF-IDF를 활용해서 빈도 높은 단어를 추출하고 그 단어를 특정하여 n-grams를 확인합니다. 로지스특 분류모델을 활용하여 분류해냅니다. 빈도가 높은 단어가 해당 분류의 주요단어로 인식하고 그 분류로 할당시킵니다. 일반이라는 한 분류가 데이터가 많아 다른 분류들을 오버샘플링을 하여 각 분류 데이터 분포를 일치시킨다는 아이디어였습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved