겨울맞이 대박할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
TF-IDF + LR/SVC 앙상블 뉴스 분류 (Macro F1 0.88)
영문 뉴스 기사를 8개 카테고리로 분류하는 TF-IDF 기반 앙상블 모델입니다.
[전처리]
- 소문자 변환, URL/이메일 제거, 특수문자 제거
[특징 추출]
- TF-IDF (bigram, max_features=50000, sublinear_tf)
[모델]
- Logistic Regression (C=10, class_weight=balanced)
- LinearSVC + CalibratedClassifierCV (확률 추정)
- 두 모델의 소프트 보팅 앙상블
[결과]
- 검증 Macro F1 Score: 0.8796
- 클래스 불균형 대응: class_weight=balanced 적용
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved