분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private Score 0.687] Count_vector, Voting(lr + rf +sgd)
전처리 코드 파일이 다 나뉘어져 있어서 모델부분만 올립니다.
전처리는 다 하시는 불용어 처리, 품사 변환, 영어, 숫자, 한자 처리 진행했고(저희는 한글이 아니면 다 지웠습니다)
키워드 컬럼 특징으로 라벨별로 나오는 단어 빈도 차이가 나타난다고 생각하여 카운트 벡터화를 진행하였고,후에 보팅하였습니다.
특정되는 빈도가 없어서 성능이 잘 안나오는 컬럼들은 공통 주제 단어로 바꾸어서 단어 빈도의 차이를 유의미하게 만드려고 시도 해봤습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved