분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private Score 0.687] Count_vector, Voting(lr + rf +sgd)
전처리 코드 파일이 다 나뉘어져 있어서 모델부분만 올립니다.
전처리는 다 하시는 불용어 처리, 품사 변환, 영어, 숫자, 한자 처리 진행했고(저희는 한글이 아니면 다 지웠습니다)
키워드 컬럼 특징으로 라벨별로 나오는 단어 빈도 차이가 나타난다고 생각하여 카운트 벡터화를 진행하였고,후에 보팅하였습니다.
특정되는 빈도가 없어서 성능이 잘 안나오는 컬럼들은 공통 주제 단어로 바꾸어서 단어 빈도의 차이를 유의미하게 만드려고 시도 해봤습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved