문장 유형 분류 AI 경진대회

알고리즘 | 언어 | 분류 | Weighted f1 Score

  • moneyIcon 상금 : 500 만원
  • 1,049명 마감

 

[Private 5th] Prompt Based Classify

2022.12.25 18:27 2,629 조회 language

4종류의 모델을 앙상블 하였고. 유형, 극성, 시제, 확실성을 각각 분류하는 방식으로 훈련하였습니다. 모델을 5-fold로 학습했기에 5개씩 총 20개를 만들었습니다.
아래는 전처리 +  4종류의 모델 중 kykim/bert-kor-base 그리고 4가지에 분류 중 '유형'에 대한 Train/Inference 코드입니다. 나머지도 동일하게 Train/Inference를 거친 뒤 Hard voting하였습니다. 마지막에 Hard voiting 코드도 추가했습니다.
(나머지 코드는 첨부한 링크를 참고해주시면 감사하겠습니다)

o   코드에 ‘/data’ 데이터 입/출력 경로 포함
데이터 경로: /workspace/dacon/data/ 


o   개발 환경(OS) 및 라이브러리 버전 기재
Ubuntu 18.04.6
torch 1.10.0
transformers 4.25.1
soynlp 0.0.493
emoj 2.2.0


o   사전 학습 모델 사용 시 출처와 (별도 필요시) 다운로드 링크
roberta -> https://huggingface.co/klue/roberta-large

electra->
    1. https://huggingface.co/tunib/electra-ko-base
    2. https://huggingface.co/monologg/koelectra-base-v3-discriminator 

bert -> https://huggingface.co/kykim/bert-kor-base 

o   사전 학습 모델 사용 시 논문 링크
https://arxiv.org/abs/1907.11692 
https://arxiv.org/abs/2003.10555 
https://arxiv.org/abs/1810.04805 

나머지 코드
https://www.kaggle.com/datasets/okayhj/dacon-code 
(Preprocess -> MLM_Train -> Train -> Inference -> ensemble 순)

PDF
코드
로그인이 필요합니다
0 / 1000
도비콘
2022.12.25 20:01

🎄🎄🎄