분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 1st] Pretrained DistilBERT + 수기 라벨링 + 수도 라벨링
안녕하세요. 우선 짧은 기간동안 다들 고생 많으셨습니다. 특히 파운데이션 모델부터 성능을 끌어올리신 걸 보고 많이 배우게 되었습니다.
뉴스 카테고리를 위해 사전 학습된 HuggingFace의 DistilBERT 모델을 활용했습니다. 560개의 직접 라벨링한 데이터를 활용해 Fine-tuning을 거친 뒤, 전체 데이터를 대상으로 Pseudo-labeling을 진행해 다시 사전 모델 Weight를 활용해 Fine-tuning을 수행하였습니다. 사용된 뉴스 카테고리 분류 사전학습 모델에 관한 논문은 https://yueh-huan.com/news_headline/MGTA415_final_project.pdf 입니다.
재현을 위한 코드와 실행방법은 github 링크를 추가합니다.
https://github.com/yjgwak/competition/tree/b7d04b982c65440c62ff124f365bf74b574c7461/2309-dacon-news-label
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved