월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

  • moneyIcon 상금 : 100만원 + α
  • 1,326명 마감

 

Private 5th | 0.89615 | Roberta+Backtrans (SBERT)

2022.03.04 19:34 2,470 조회 language

안녕하세요. 순위 Public 5th / Private 5th 를 기록한 상드래곤 입니다
처음 참여해보는 자연어처리 task여서 많은 공부가 된 것 같습니다

데이터는 KLUE, KorNLU를 사용했으며 KorNLU 데이터의 경우 전체 데이터 중 일부를 학습에 사용했습니다

KLUE 데이터에 대해서만 Backtrans를 진행했고 번역된 데이터의 품질이 좋지못해 
SentenceBERT(SBERT)를 이용하여 원본 데이터와 '유사도'를 구해 높은 유사도의 데이터만 학습에 사용했습니다

일차적으로 papago로 번역 후, 번역이 안되는 경우 부가적으로 google을 이용하여 번역을 진행했습니다
번역은 총 4step을 거쳐 이루어집니다
    1-step 번역이 진행되면서 공백 및 번역되지 않은 데이터 재번역
    2-step 번역이 진행되면서 일부분만 번역된 경우 재번역
    3-step 번역이 안되는 단어 -> 문장에서 분리 후 단어만 번역
    4-step 한글 -> 영어로 번역 시 번역된 문장이 기존 문장의 길이에 대한 비율 0.5 이하이면 재번역


모델은 klue_roberta_large를 사용했으며 5-fold를 이용하여 학습시킨 모델로 test셋에 대해 soft voting 앙상블을 진행 
    학습 데이터: KLUE + KorNLU + Back Translation
    검증 데이터: KLUE

Optimizer 는 AdamW를 사용했으며, AMP를 적용. 모델이 과적합 한다고 판단해 LabelSmoothing을 적용했습니다. 또한, fold마다 EarlyStopping을 사용했습니다.

제 github인 https://github.com/SYLee1996/DACON-KorNLI 에서 cuda10.2와 cuda11.2.0에 대해 Docker환경(라이브러리 수정)을 제공하고 있습니다

읽으시면서 생기는 궁금하신 부분은 댓글이나 perfect1996@naver.com로 메일 보내주시면 성실히 답변해드리겠습니다

감사합니다

코드
이전 글
이전 글이 존재하지 않습니다.
현재 글
Private 5th | 0.89615 | Roberta+Backtrans (SBERT)
대회 - 월간 데이콘 한국어 문장 관계 분류 경진대회
좋아요 21
조회 2,470
댓글 0
2년 전
다음 글
Private 3등 | 0.89915 | 0. 데이터증강 - Bart Noising
대회 - 월간 데이콘 한국어 문장 관계 분류 경진대회
좋아요 24
조회 3,596
댓글 2
2년 전