Dacon Monthly ChatGPT Utilization Generative AI Competition

Algorithm | ChatGPT | Prompt Engineering | NLP | Classification | Macro F1 Score

  • moneyIcon Certification
  • 1,239 Users Completed

 

single_best_svm

2026.04.07 16:21 142 Views language

먼저 train.csv, test.csv, sample_submission.csv를 불러와 데이터 크기, 컬럼, 결측치, 라벨 분포를 확인했다.
이후 텍스트를 문자열로 통일하고 공백을 정리하는 기본 전처리를 수행했으며, text_len, word_count 같은 길이 파생변수도 만들었다.
탐색적 데이터 분석에서는 라벨 불균형, 문서 길이 분포, 라벨별 길이 차이, 긴 문서와 짧은 문서의 특성을 확인했다.
그다음 train_test_split으로 학습용과 검증용 데이터를 나누고, 텍스트를 TF-IDF 방식으로 숫자 벡터로 변환했다.
초기에는 기본 TF-IDF와 LogisticRegression, LinearSVC를 비교했고, 그중 LinearSVC가 더 좋은 검증 성능을 보였다.
이후 성능 향상을 위해 word n-gram TF-IDF와 char n-gram TF-IDF를 결합한 벡터화를 적용했고, 단일 LinearSVC 모델만으로도 성능을 크게 높였다.
검증 결과 최종 LinearSVC 모델은 약 Accuracy 0.9281, Macro F1 0.9106 수준을 기록했다.
마지막으로 학습된 모델로 테스트 데이터를 예측하고, 예측 결과를 sample_submission 형식에 맞춰 CSV 파일로 저장해 제출할 수 있도록 구성했다.

Code
Previous
No Previous Post
Current
single_best_svm
Competition - 생성 AI ChatGPT 활용 AI 경진대회 월간 데이콘
Likes 0
Views 142
Comments 0
한 달 전
Next
TF-IDF + LR/SVC 앙상블 뉴스 분류 (Macro F1 0.88)
Competition - 생성 AI ChatGPT 활용 AI 경진대회 월간 데이콘
Likes 0
Views 255
Comments 0
2달 전