월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

상금 100만원 + α
1,353명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[Private 6th/0.89555]RoBERTa+KoELECTRA+Backtrans

비회원

공동작성자

2022.03.01 20:51 6,615 조회 language

좋은 대회 열어주셔서 감사드립니다.

Back translation부분은 '뉴스 토픽 분류 AI 경진대회' 최종 3th Kerry님의 코드를 참고하였고 모델링 부분은 'AI 워너비'님의 코드와 'JunsuLee'님의 코드를 활용하였습니다. 감사드립니다.
추가 데이터로는 KLUE nli dev 데이터를 사용했습니다.

저희 팀에서 실제로 전처리와 모델학습을 할 때, task를 나눠서 각자의 코랩 환경에서 진행하였고 모델 학습 시 모델 weight와 예측 확률을 저장하여 soft ensemble을 적용하였습니다.
모델로는 RoBERTa-Large(모델 1,2,3), KoELECTRA(모델 4)의 pre-trained된 모델을 사용하였고, 원본 데이터에 KLUE nli dev 데이터를 합친 모델의 5-fold 모델(1) + 해석 데이터로 augmentation한 5-fold 모델(2) + 해석 데이터를 원본 데이터와 바꾸고 KLUE nli dev 추가한 데이터의 모델(3) + 모델(1)과 같은 데이터에 KoELECTRA를 적용한 모델(4)를 부분적으로 앙상블 하였습니다.

코드