분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
TF-IDF + LR/SVC 앙상블 뉴스 분류 (Macro F1 0.88)
영문 뉴스 기사를 8개 카테고리로 분류하는 TF-IDF 기반 앙상블 모델입니다.
[전처리]
- 소문자 변환, URL/이메일 제거, 특수문자 제거
[특징 추출]
- TF-IDF (bigram, max_features=50000, sublinear_tf)
[모델]
- Logistic Regression (C=10, class_weight=balanced)
- LinearSVC + CalibratedClassifierCV (확률 추정)
- 두 모델의 소프트 보팅 앙상블
[결과]
- 검증 Macro F1 Score: 0.8796
- 클래스 불균형 대응: class_weight=balanced 적용
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved