분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 33등/0.96139] 1.학습 데이터 생성 - uniXcoder
시간 대부분을 데이터 생성과 모델 학습을 기다리는 것에 투자하였습니다.
그만큼 학습은 baseline과 동일한 정도로 수정한 것이 없습니다.
모두들 화이팅
1.학습 데이터 생성 - uniXcoder
https://dacon.io/competitions/official/235900/codeshare/5142
2.학습, 추론 - GraphCodeBert
https://dacon.io/competitions/official/235900/codeshare/5143
# 데이터 생성에서 사용된 아이디어
1. contrastive learning의 개념을 적용하여 negative sample을 선정하였습니다.
2. 학습할 모델보다 성능이 좋은 다른 모델(UniXcoder)을 이용해서 dataset을 sampling을 하였습니다. 이는 학습모델(GraphCodeBert)이 생각하지 못한 경우를 다른 모델로부터 배울 수 있다는 가정에서 접근하였습니다.
3. 전처리는 간단하게 주석만 제거했습니다.
# 학습에 사용된 아이디어
1. pretrained model 사용 - [GraphCodeBert](https://github.com/microsoft/CodeBERT)
2. [Label smoothing](https://arxiv.org/pdf/1906.02629.pdf)
3. tokenize시 truncation 방향을 right에서 left로 변경
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
흥미로운 어프로치네요...! 잘 읽었습니당