DACON Monthly Korean sentence relation classification Competition

Algorithm | NLP | Classification | Natural Language | Accuracy

Prize : 100만원 + α
2022.01.28 ~ 2022.02.28 17:59 + Google Calendar
1,350 Users Completed

Practice

Overview Data Code (share) Talk Leaderboard

Submission

[Private 6th/0.89555]RoBERTa+KoELECTRA+Backtrans

비회원

공동작성자

2022.03.01 20:51 5,623 Views language

좋은 대회 열어주셔서 감사드립니다.

Back translation부분은 '뉴스 토픽 분류 AI 경진대회' 최종 3th Kerry님의 코드를 참고하였고 모델링 부분은 'AI 워너비'님의 코드와 'JunsuLee'님의 코드를 활용하였습니다. 감사드립니다.
추가 데이터로는 KLUE nli dev 데이터를 사용했습니다.

저희 팀에서 실제로 전처리와 모델학습을 할 때, task를 나눠서 각자의 코랩 환경에서 진행하였고 모델 학습 시 모델 weight와 예측 확률을 저장하여 soft ensemble을 적용하였습니다.
모델로는 RoBERTa-Large(모델 1,2,3), KoELECTRA(모델 4)의 pre-trained된 모델을 사용하였고, 원본 데이터에 KLUE nli dev 데이터를 합친 모델의 5-fold 모델(1) + 해석 데이터로 augmentation한 5-fold 모델(2) + 해석 데이터를 원본 데이터와 바꾸고 KLUE nli dev 추가한 데이터의 모델(3) + 모델(1)과 같은 데이터에 KoELECTRA를 적용한 모델(4)를 부분적으로 앙상블 하였습니다.

Code