월간 데이콘 쇼츠 - 뉴스 기사 레이블 복구 해커톤

알고리즘 | 언어 | 분류 | 클러스터링 | 라벨링 | Macro F1 Score

  • moneyIcon 상금 : 인증서
  • 474명 마감

 

[Private 1st] Pretrained DistilBERT + 수기 라벨링 + 수도 라벨링

2023.09.26 22:29 886 조회 language

안녕하세요. 우선 짧은 기간동안 다들 고생 많으셨습니다. 특히 파운데이션 모델부터 성능을 끌어올리신 걸 보고 많이 배우게 되었습니다.
 
뉴스 카테고리를 위해 사전 학습된 HuggingFace의 DistilBERT 모델을 활용했습니다. 560개의 직접 라벨링한 데이터를 활용해 Fine-tuning을 거친 뒤, 전체 데이터를 대상으로 Pseudo-labeling을 진행해 다시 사전 모델 Weight를 활용해 Fine-tuning을 수행하였습니다. 사용된 뉴스 카테고리 분류 사전학습 모델에 관한 논문은 https://yueh-huan.com/news_headline/MGTA415_final_project.pdf 입니다.

재현을 위한 코드와 실행방법은 github 링크를 추가합니다.
https://github.com/yjgwak/competition/tree/b7d04b982c65440c62ff124f365bf74b574c7461/2309-dacon-news-label

PDF