2024 용인시와 함께하는 한국외대 SW중심대학 - GBT 해커톤 경진대회

Algorithm | NLP | Classification | Macro F1 Score

 

[PrivateScore 0.65] TF-IDF + n-grams + over-sampling + 로지스틱

공동작성자
2024.11.05 10:18 466 Views language

전처리는 기본적인 불용어를 처리하고 TF-IDF를 활용해서 빈도 높은 단어를 추출하고 그 단어를 특정하여 n-grams를 확인합니다. 로지스특 분류모델을 활용하여 분류해냅니다. 빈도가 높은 단어가 해당 분류의 주요단어로 인식하고 그 분류로 할당시킵니다. 일반이라는 한 분류가 데이터가 많아 다른 분류들을 오버샘플링을 하여 각 분류 데이터 분포를 일치시킨다는 아이디어였습니다.

Code