월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

  • moneyIcon 상금 : 100만원 + α
  • 1,326명 마감

 

Private 11th | 0.89015 | RoBERTa+Self-Explaining

2022.03.04 15:35 1,497 조회 language

Github: https://github.com/jjonhwa/KLUE-NLI

Hardware: Colab Pro (P100 & T4)

외부데이터 활용
-  KLUE Official Dev Dataset 
-  정제한 KorNLI Dataset (Human)

    => KorNLI Dataset (Human)에서 Max Token Length를 바탕으로 사용할 추가 데이터를 최종 선정하였습니다.

사용한 모델
-  1번: Baseline
    -  KLUE/RoBERTa-large (with KLUE Official Dev Dataset)
-  2번: Baseline_aug
    -  KLUE/RoBERTa-large (with KLUE Official Dev Dataset + KorNLI )
-  3번: Self-Explaining
    -  Self-Explaining (with KLUE Official Dev Dataset)

    => Self-Explaining의 경우 KorNLI를 사용하지 않았을 경우 성능이 조금 더 높게 나왔습니다.
    => Baseline (KLUE/RoBERTa-large)의 경우 KorNLI를 활용하였을 때 성능이 조금 더 높게 나왔습니다.
    => https://dacon.io/competitions/official/235875/talkboard/405945?page=1&dtype=recent 다음 링크에서 설명을 참고하여 Dataset을 증가하였을 경우와 증가하지 않았을 경우를 Ensemble하였다는 방법론을 참고하여 1번과 2번 모델을 Ensemble하였으며, 그 결과 약간의 성능 증가를 얻어낼 수 있었습니다.

Ensemble
-  모든 모델은 K=5 Out of Fold Ensemble을 하였습니다.
-  Baseline + Baseline_aug
-  Baseline + Self-Explaining

코드
로그인이 필요합니다
0 / 1000
쉬어
2022.03.07 22:07

잘하시네요.. 코드공유 감사드립니다

honghansol
2022.07.21 12:38

감사합니다