분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 5th] Prompt Based Classify
4종류의 모델을 앙상블 하였고. 유형, 극성, 시제, 확실성을 각각 분류하는 방식으로 훈련하였습니다. 모델을 5-fold로 학습했기에 5개씩 총 20개를 만들었습니다.
아래는 전처리 + 4종류의 모델 중 kykim/bert-kor-base 그리고 4가지에 분류 중 '유형'에 대한 Train/Inference 코드입니다. 나머지도 동일하게 Train/Inference를 거친 뒤 Hard voting하였습니다. 마지막에 Hard voiting 코드도 추가했습니다.
(나머지 코드는 첨부한 링크를 참고해주시면 감사하겠습니다)
o 코드에 ‘/data’ 데이터 입/출력 경로 포함
데이터 경로: /workspace/dacon/data/
o 개발 환경(OS) 및 라이브러리 버전 기재
Ubuntu 18.04.6
torch 1.10.0
transformers 4.25.1
soynlp 0.0.493
emoj 2.2.0
o 사전 학습 모델 사용 시 출처와 (별도 필요시) 다운로드 링크
roberta -> https://huggingface.co/klue/roberta-large
electra->
1. https://huggingface.co/tunib/electra-ko-base
2. https://huggingface.co/monologg/koelectra-base-v3-discriminator
bert -> https://huggingface.co/kykim/bert-kor-base
o 사전 학습 모델 사용 시 논문 링크
https://arxiv.org/abs/1907.11692
https://arxiv.org/abs/2003.10555
https://arxiv.org/abs/1810.04805
나머지 코드
https://www.kaggle.com/datasets/okayhj/dacon-code
(Preprocess -> MLM_Train -> Train -> Inference -> ensemble 순)
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
🎄🎄🎄