분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 3등 | 0.89915 | 0. 데이터증강 - Bart Noising
안녕하세요
순위 : Public 3rd / Private 3rd
를 기록한 Maximalizm입니다
처음 업로드되는 이번 노트북은 제가 사용한 데이터들에 대한 코드를 정리한 노트북이며,
사용한 모델들에 대한 코드는 이어서 업로드하겠습니다.
0. 외부데이터 활용 : KLUE Official Dev DataSet
1. Pororo MT를 이용한 Back Translation Augmentation (경유 언어 : 영어)
2. Bart Pre-Training Idea에서 적용된 Noising 방법들을 적용하여 다양한 Data Augmentation을 수행.
해당 데이터들을 csv파일 형태로 저장하여 학습에 사용하였습니다.
ref : https://arxiv.org/pdf/1910.13461v1.pdf
위 Paper 中 Figure2 참고
-------------------------------------------------------------------------------------------------------------
분석환경은 Colab을 통해, Working Directory는 Google Drive를 통해 진행하였습니다.
Dacon의 기본 제공 학습 데이터
- 훈련데이터 : ./data/train_data.csv
- 테스트데이터 : ./data/test_data.csv
- 제출샘플 : ./data/sample_submission.csv
활용 외부데이터 (KLUE Official Dev Data)
- ./klue_official_data/klue-nli-v1.1_train.json
- ./klue_official_data/klue-nli-v1.1_dev.json
-------------------------------------------------------------------------------------------------------------
깔끔하고 친절하게 코드와 자료 공유해주셔서 너무 감사드립니다!
즐겁게 정주행하며 열심히 배워보렵니다~
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
모델 학습에 사용한 데이터 목록 드라이브 링크로 공유드립니다.
- https://drive.google.com/drive/folders/1K67vWdntZ65lq0T1KMw4sH62RPkV8LOc?usp=sharing