월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

  • moneyIcon 상금 : 100만원 + α
  • 1,326명 마감

 

Private 3등 | 0.89915 | 0. 데이터증강 - Bart Noising

2022.03.04 13:53 3,604 조회 language

안녕하세요
순위 : Public 3rd / Private 3rd
를 기록한 Maximalizm입니다

처음 업로드되는 이번 노트북은 제가 사용한 데이터들에 대한 코드를 정리한 노트북이며,
사용한 모델들에 대한 코드는 이어서 업로드하겠습니다.

0. 외부데이터 활용 : KLUE Official Dev DataSet

1. Pororo MT를 이용한 Back Translation Augmentation (경유 언어 : 영어)

2. Bart Pre-Training Idea에서 적용된 Noising 방법들을 적용하여 다양한 Data Augmentation을 수행.
해당 데이터들을 csv파일 형태로 저장하여 학습에 사용하였습니다.
ref : https://arxiv.org/pdf/1910.13461v1.pdf
위 Paper 中  Figure2 참고


-------------------------------------------------------------------------------------------------------------
분석환경은 Colab을 통해, Working Directory는 Google Drive를 통해 진행하였습니다.

Dacon의 기본 제공 학습 데이터
- 훈련데이터 : ./data/train_data.csv
- 테스트데이터 : ./data/test_data.csv
- 제출샘플 : ./data/sample_submission.csv

활용 외부데이터 (KLUE Official Dev Data)
- ./klue_official_data/klue-nli-v1.1_train.json
- ./klue_official_data/klue-nli-v1.1_dev.json

-------------------------------------------------------------------------------------------------------------

코드
로그인이 필요합니다
0 / 1000
Maximalizm
2022.03.05 06:59

모델 학습에 사용한 데이터 목록 드라이브 링크로 공유드립니다.
https://drive.google.com/drive/folders/1K67vWdntZ65lq0T1KMw4sH62RPkV8LOc?usp=sharing

나들
2022.09.20 10:29

깔끔하고 친절하게 코드와 자료 공유해주셔서 너무 감사드립니다! 
즐겁게 정주행하며 열심히 배워보렵니다~