2024 용인시와 함께하는 한국외대 SW중심대학 - GBT 해커톤 경진대회

알고리즘 | 언어 | 분류 | Macro F1 Score

 

[Private Score 0.687] Count_vector, Voting(lr + rf +sgd)

공동작성자
2024.11.04 19:00 478 조회 language

전처리 코드 파일이 다 나뉘어져 있어서 모델부분만 올립니다.
전처리는 다 하시는 불용어 처리, 품사 변환, 영어, 숫자, 한자 처리 진행했고(저희는 한글이 아니면 다 지웠습니다)
키워드 컬럼 특징으로 라벨별로 나오는 단어 빈도 차이가 나타난다고 생각하여 카운트 벡터화를 진행하였고,후에 보팅하였습니다.
특정되는 빈도가 없어서 성능이 잘 안나오는 컬럼들은 공통 주제 단어로 바꾸어서 단어 빈도의 차이를 유의미하게 만드려고 시도 해봤습니다.

코드