월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

  • moneyIcon 상금 : 100만원 + α
  • 1,323명 마감

 

[Private 6th/0.89555]RoBERTa+KoELECTRA+Backtrans

비회원

공동작성자

stroke
2022.03.01 20:51 2,968 조회 language

좋은 대회 열어주셔서 감사드립니다.

Back translation부분은 '뉴스 토픽 분류 AI 경진대회' 최종 3th Kerry님의 코드를 참고하였고 모델링 부분은 'AI 워너비'님의 코드와 'JunsuLee'님의 코드를 활용하였습니다. 감사드립니다.
추가 데이터로는 KLUE nli dev 데이터를 사용했습니다. 

저희 팀에서 실제로 전처리와 모델학습을 할 때, task를 나눠서 각자의 코랩 환경에서 진행하였고 모델 학습 시 모델 weight와 예측 확률을 저장하여 soft ensemble을 적용하였습니다. 
모델로는 RoBERTa-Large(모델 1,2,3), KoELECTRA(모델 4)의 pre-trained된 모델을 사용하였고, 원본 데이터에 KLUE nli dev 데이터를 합친 모델의 5-fold 모델(1) + 해석 데이터로 augmentation한 5-fold 모델(2) + 해석 데이터를 원본 데이터와 바꾸고 KLUE nli dev 추가한 데이터의 모델(3) + 모델(1)과 같은 데이터에 KoELECTRA를 적용한 모델(4)를 부분적으로 앙상블 하였습니다.

코드
로그인이 필요합니다
0 / 1000
장어
2022.03.02 22:18

번역 데이터로 증강했을 때와 안 했을 때의 차이가 심했나요?? 시도해보지는 않아서 궁금하네요!
공유 감사합니다! 

비회원
2022.03.02 23:15

번역 데이터를 추가한 모델의 5-fold의 경우 0.893의 성능을 기록했습니다! 추가하지 않은 모델에서는 0.87~0.88정도의 성능을 기록했던 것으로 기억해요.저희는 epoch을 3으로만 진행해서 학습 조건에 따라 편차가 다를 수도 있을 것 같네요^^

비회원
2022.03.02 23:20

+제가 말씀드린 성능은 public score 기준이에요

리콜너마저
2022.07.21 00:24

코드 공유 너무 감사드립니다

비회원
2022.07.21 07:39

네 감사합니다:)

honghansol
2022.07.21 12:35

감사합니다

비회원
2022.07.21 13:44

네 감사해요:)