문장 유형 분류 AI 경진대회

알고리즘 | 언어 | 분류 | Weighted f1 Score

상금 : 500 만원
1,032명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[Private 5th] Prompt Based Classify

HJOK

2022.12.25 18:27 1,824 조회 language

4종류의 모델을 앙상블 하였고. 유형, 극성, 시제, 확실성을 각각 분류하는 방식으로 훈련하였습니다. 모델을 5-fold로 학습했기에 5개씩 총 20개를 만들었습니다.
아래는 전처리 +  4종류의 모델 중 kykim/bert-kor-base 그리고 4가지에 분류 중 '유형'에 대한 Train/Inference 코드입니다. 나머지도 동일하게 Train/Inference를 거친 뒤 Hard voting하였습니다. 마지막에 Hard voiting 코드도 추가했습니다.
(나머지 코드는 첨부한 링크를 참고해주시면 감사하겠습니다)

o   코드에 ‘/data’ 데이터 입/출력 경로 포함
데이터 경로: /workspace/dacon/data/

o   개발 환경(OS) 및 라이브러리 버전 기재
Ubuntu 18.04.6
torch 1.10.0
transformers 4.25.1
soynlp 0.0.493
emoj 2.2.0

o   사전 학습 모델 사용 시 출처와 (별도 필요시) 다운로드 링크
roberta -> https://huggingface.co/klue/roberta-large

electra->
    1. https://huggingface.co/tunib/electra-ko-base
    2. https://huggingface.co/monologg/koelectra-base-v3-discriminator

bert -> https://huggingface.co/kykim/bert-kor-base

o   사전 학습 모델 사용 시 논문 링크
https://arxiv.org/abs/1907.11692
https://arxiv.org/abs/2003.10555
https://arxiv.org/abs/1810.04805

나머지 코드
https://www.kaggle.com/datasets/okayhj/dacon-code
(Preprocess -> MLM_Train -> Train -> Inference -> ensemble 순)