분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 1st] Pretrained DistilBERT + 수기 라벨링 + 수도 라벨링
안녕하세요. 우선 짧은 기간동안 다들 고생 많으셨습니다. 특히 파운데이션 모델부터 성능을 끌어올리신 걸 보고 많이 배우게 되었습니다.
뉴스 카테고리를 위해 사전 학습된 HuggingFace의 DistilBERT 모델을 활용했습니다. 560개의 직접 라벨링한 데이터를 활용해 Fine-tuning을 거친 뒤, 전체 데이터를 대상으로 Pseudo-labeling을 진행해 다시 사전 모델 Weight를 활용해 Fine-tuning을 수행하였습니다. 사용된 뉴스 카테고리 분류 사전학습 모델에 관한 논문은 https://yueh-huan.com/news_headline/MGTA415_final_project.pdf 입니다.
재현을 위한 코드와 실행방법은 github 링크를 추가합니다.
https://github.com/yjgwak/competition/tree/b7d04b982c65440c62ff124f365bf74b574c7461/2309-dacon-news-label
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved