분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 5th | 0.89615 | Roberta+Backtrans (SBERT)
안녕하세요. 순위 Public 5th / Private 5th 를 기록한 상드래곤 입니다
처음 참여해보는 자연어처리 task여서 많은 공부가 된 것 같습니다
데이터는 KLUE, KorNLU를 사용했으며 KorNLU 데이터의 경우 전체 데이터 중 일부를 학습에 사용했습니다
KLUE 데이터에 대해서만 Backtrans를 진행했고 번역된 데이터의 품질이 좋지못해
SentenceBERT(SBERT)를 이용하여 원본 데이터와 '유사도'를 구해 높은 유사도의 데이터만 학습에 사용했습니다
일차적으로 papago로 번역 후, 번역이 안되는 경우 부가적으로 google을 이용하여 번역을 진행했습니다
번역은 총 4step을 거쳐 이루어집니다
1-step 번역이 진행되면서 공백 및 번역되지 않은 데이터 재번역
2-step 번역이 진행되면서 일부분만 번역된 경우 재번역
3-step 번역이 안되는 단어 -> 문장에서 분리 후 단어만 번역
4-step 한글 -> 영어로 번역 시 번역된 문장이 기존 문장의 길이에 대한 비율 0.5 이하이면 재번역
모델은 klue_roberta_large를 사용했으며 5-fold를 이용하여 학습시킨 모델로 test셋에 대해 soft voting 앙상블을 진행
학습 데이터: KLUE + KorNLU + Back Translation
검증 데이터: KLUE
Optimizer 는 AdamW를 사용했으며, AMP를 적용. 모델이 과적합 한다고 판단해 LabelSmoothing을 적용했습니다. 또한, fold마다 EarlyStopping을 사용했습니다.
제 github인 https://github.com/SYLee1996/DACON-KorNLI 에서 cuda10.2와 cuda11.2.0에 대해 Docker환경(라이브러리 수정)을 제공하고 있습니다
읽으시면서 생기는 궁금하신 부분은 댓글이나 perfect1996@naver.com로 메일 보내주시면 성실히 답변해드리겠습니다
감사합니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved