월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

상금 : 100만원 + α
1,326명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

Private 3등 | 0.89915 | 2.Custom Model R-Roberta

Maximalizm

2022.03.04 16:21 2,502 조회 language

안녕하세요 Maximalizm입니다.

4개의 모델 중 2번째 모델 학습 코드입니다.
(이번 코드의 모델은 Public Score 기준 : 0.897입니다)

코드를 참고해주시고 궁금하신 점이 있으시면 질문 주시면 감사하겠습니다.
이번 모델의 차별화 전략은
- KLUE Official Dev Data를 학습에 추가 사용하였습니다.
- R-BERT 모델 구조에서 아이디어를 차용하여 모델 아키텍처를 수정하였습니다.
- 5-Fold Soft Ensemble 을 시도하려 했지만 Colab의 런타임 이슈로 인하여 4번째와 5번째 Fold만 학습완료되었습니다.
- 이들 중 Public Score 0.897을 기록한 4번째 Fold 모델만을 Inference에 사용하였습니다.

##### 모든 모델 학습 코드는 Colab Pro 환경에서 진행되었습니다 #####

---------------------------------------------------------- 공유 코드 링크-------------------------------------------------------------
0. Data Augmentation
- https://dacon.io/competitions/official/235875/codeshare/4625?page=1&dtype=recent
1. 1번째 모델
- https://dacon.io/competitions/official/235875/codeshare/4629

코드

댓글 8개

로그인이 필요합니다

comment

0 / 1000

Maximalizm

2022.03.05 06:59

모델 학습에 사용한 데이터 목록 드라이브 링크로 공유드립니다.
- https://drive.google.com/drive/folders/1K67vWdntZ65lq0T1KMw4sH62RPkV8LOc?usp=sharing

한강

2022.03.07 01:46

이 게시물의 custom model로는 다른 게시물의 전략이나 아이디어와 함께 대회에 사용하지는 않으신걸까요?
코드 공유 너무나 감사드려요 덕분에 많이 배워갑니다 :)

Maximalizm

2022.03.11 14:09

안녕하세요 한강님
사실 한 두가지 시도는 해보았지만 유의미한 성능 향상을 끌어내진 못하였고, 더욱 다양한 전략들과 결합하는 실험은 해보지 못했습니다.
아무래도 대회 막바지에 생각하고 적용했던 방법론이라, 해당 모델을 다양하게 시도해나갈지 혹은 기존 결과들에 대한 앙상블을 시도할지 결정해야 할 기로에서 후자를 선택하게 되었습니다.

다복

2022.03.07 09:13

코드 공유 감사드립니다!!

Maximalizm

2022.03.11 14:09

안녕하세요 다복님
긴 글 읽어주셔서 감사합니다 ㅎㅎ