커뮤니티 대회 교육

월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

  • moneyIcon 상금 : 100만원 + α
  • 1,074명 마감

 

[Private 16th/0.88895]Roberta Large (layerwise lr)

공동작성자

stroke
2022.03.01 15:09 715 조회 language

안녕하세요.
Public 13등, Private 16등 코드 공유드립니다.
처음 참여해본 대회라 많이 배워갑니다.

모델 성능을 향상시키기 위해 중점적으로 본 부분을 요약하자면,
pre-trained bert 모델은 하위 layer에 일반적인 정보를 갖고 있고, 이에 대한 catastrophic forgetting 현상을 완화하기 위하여 Laywer-wise lr decay를 사용했습니다. (참조 1.)
또한, Gold Label 에 대한 Over-confidence를 줄이기 위해 label smoothing을 통한 Calibration 효과를 주었습니다. (참조 2, 3)
마지막으로 데이터 증강을 위해서 한 -> 영 -> 한으로 돌아오는 Backtranslation 기법을 사용하여 의미는 보존하되 다른 형태의 문장을 생성했습니다.
예시:  
1 .  어떤 방에서도 흡연은 금지됩니다. -> 모든 객실에서 금연입니다. 
2. 10명이 함께 사용하기 불편함이 많았다. ->  10명이 사용하기에는 너무 불편했습니다.

최종 모델과 학습에 사용한 데이터 공유합니다.
모델: https://drive.google.com/drive/folders/15q6N939p74_tLQ_p04OQl7C7HEZDGqCE
데이터: https://drive.google.com/drive/folders/1sQvk5tPX1AFBYVEuxLDCIpn91RMdqs6N

환경은 google colab 환경에서 진행하였고, 런타임이 20시간 마다 끊겨서 저장된 ckpt파일을 불러와서 이어서 학습을 진행했습니다.

참조
1. https://arxiv.org/pdf/1905.05583.pdf
2. https://papers.nips.cc/paper/2019/file/f1748d6b0fd9d439f71450117eba2725-Paper.pdf
3. http://proceedings.mlr.press/v70/guo17a/guo17a.pdf

코드
로그인이 필요합니다
0 / 1000