월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

상금 : 100만원 + α
1,333명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

Private 11th | 0.89015 | RoBERTa+Self-Explaining

일리#

2022.03.04 15:35 1,674 조회 language

Github: https://github.com/jjonhwa/KLUE-NLI

Hardware: Colab Pro (P100 & T4)

외부데이터 활용
-  KLUE Official Dev Dataset
-  정제한 KorNLI Dataset (Human)

    => KorNLI Dataset (Human)에서 Max Token Length를 바탕으로 사용할 추가 데이터를 최종 선정하였습니다.

사용한 모델
-  1번: Baseline
    -  KLUE/RoBERTa-large (with KLUE Official Dev Dataset)
-  2번: Baseline_aug
    -  KLUE/RoBERTa-large (with KLUE Official Dev Dataset + KorNLI )
-  3번: Self-Explaining
    -  Self-Explaining (with KLUE Official Dev Dataset)

    => Self-Explaining의 경우 KorNLI를 사용하지 않았을 경우 성능이 조금 더 높게 나왔습니다.
    => Baseline (KLUE/RoBERTa-large)의 경우 KorNLI를 활용하였을 때 성능이 조금 더 높게 나왔습니다.
    => https://dacon.io/competitions/official/235875/talkboard/405945?page=1&dtype=recent 다음 링크에서 설명을 참고하여 Dataset을 증가하였을 경우와 증가하지 않았을 경우를 Ensemble하였다는 방법론을 참고하여 1번과 2번 모델을 Ensemble하였으며, 그 결과 약간의 성능 증가를 얻어낼 수 있었습니다.

Ensemble
-  모든 모델은 K=5 Out of Fold Ensemble을 하였습니다.
-  Baseline + Baseline_aug
-  Baseline + Self-Explaining