분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 11th | 0.89015 | RoBERTa+Self-Explaining
Github: https://github.com/jjonhwa/KLUE-NLI
Hardware: Colab Pro (P100 & T4)
외부데이터 활용
- KLUE Official Dev Dataset
- 정제한 KorNLI Dataset (Human)
=> KorNLI Dataset (Human)에서 Max Token Length를 바탕으로 사용할 추가 데이터를 최종 선정하였습니다.
사용한 모델
- 1번: Baseline
- KLUE/RoBERTa-large (with KLUE Official Dev Dataset)
- 2번: Baseline_aug
- KLUE/RoBERTa-large (with KLUE Official Dev Dataset + KorNLI )
- 3번: Self-Explaining
- Self-Explaining (with KLUE Official Dev Dataset)
=> Self-Explaining의 경우 KorNLI를 사용하지 않았을 경우 성능이 조금 더 높게 나왔습니다.
=> Baseline (KLUE/RoBERTa-large)의 경우 KorNLI를 활용하였을 때 성능이 조금 더 높게 나왔습니다.
=> https://dacon.io/competitions/official/235875/talkboard/405945?page=1&dtype=recent 다음 링크에서 설명을 참고하여 Dataset을 증가하였을 경우와 증가하지 않았을 경우를 Ensemble하였다는 방법론을 참고하여 1번과 2번 모델을 Ensemble하였으며, 그 결과 약간의 성능 증가를 얻어낼 수 있었습니다.
Ensemble
- 모든 모델은 K=5 Out of Fold Ensemble을 하였습니다.
- Baseline + Baseline_aug
- Baseline + Self-Explaining
감사합니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
잘하시네요.. 코드공유 감사드립니다