분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 16th/0.88895]Roberta Large (layerwise lr)
공동작성자
안녕하세요.
Public 13등, Private 16등 코드 공유드립니다.
처음 참여해본 대회라 많이 배워갑니다.
모델 성능을 향상시키기 위해 중점적으로 본 부분을 요약하자면,
pre-trained bert 모델은 하위 layer에 일반적인 정보를 갖고 있고, 이에 대한 catastrophic forgetting 현상을 완화하기 위하여 Laywer-wise lr decay를 사용했습니다. (참조 1.)
또한, Gold Label 에 대한 Over-confidence를 줄이기 위해 label smoothing을 통한 Calibration 효과를 주었습니다. (참조 2, 3)
마지막으로 데이터 증강을 위해서 한 -> 영 -> 한으로 돌아오는 Backtranslation 기법을 사용하여 의미는 보존하되 다른 형태의 문장을 생성했습니다.
예시:
1 . 어떤 방에서도 흡연은 금지됩니다. -> 모든 객실에서 금연입니다.
2. 10명이 함께 사용하기 불편함이 많았다. -> 10명이 사용하기에는 너무 불편했습니다.
최종 모델과 학습에 사용한 데이터 공유합니다.
모델: https://drive.google.com/drive/folders/15q6N939p74_tLQ_p04OQl7C7HEZDGqCE
데이터: https://drive.google.com/drive/folders/1sQvk5tPX1AFBYVEuxLDCIpn91RMdqs6N
환경은 google colab 환경에서 진행하였고, 런타임이 20시간 마다 끊겨서 저장된 ckpt파일을 불러와서 이어서 학습을 진행했습니다.
참조
1. https://arxiv.org/pdf/1905.05583.pdf
2. https://papers.nips.cc/paper/2019/file/f1748d6b0fd9d439f71450117eba2725-Paper.pdf
3. http://proceedings.mlr.press/v70/guo17a/guo17a.pdf
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved