분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Encoder is All you Need | 상하목장스누피팀
공동작성자
안녕하세요, 상하목장스누피팀의 안영진입니다.
좋은 대회를 주최해주셔서 감사합니다.
무엇보다 저의 동료이자 스승이신 박상하님에게 감사합니다. 상하님께 많은 걸 배웠으며, 같은 팀이라는 게 든든했습니다.
⚠️ 재현하실 때 ⚠️
- 사용한 코드는 다음과 같습니다: https://github.com/sangHa0411/CodeSimilarity
- 보다 용이하게 재현하실 수 있도록 각 Fold 별 학습에 활용된 Pair 데이터셋을 공개합니다: https://huggingface.co/poolc
- 데이콘과 주최측께서 원하신다면 각 모델 별로 훈련시킨 Wandb 로그 또한 공유해드리겠습니다.
- 혹시라도 재현하실 때 확인하실 점, 문의하실 부분이 있다면 언제든 young_ahn@yonsei.ac.kr로 연락주시면 감사하겠습니다.
🕸 Ensemble & KFold 🕸
최종 제출물은 약 1000만 코드쌍(9790K Pairs)을 학습시킨 결과입니다.
A100 GPU 서버에서 총합 130시간 정도 파인튜닝을 진행했습니다.
1) GraphRoberta, 2) CodeT5 Encoder, 3) PLBART Encoder 세 가지 PLM 별로 5Fold Training을 진행했습니다.
이때 Fold는 240개 Class vs 60개 Class로 Pair의 교집합이 없도록 쪼갰습니다.
데이터셋은 충분하게 각 Fold 별로 90만쌍의 데이터셋을 학습시켰고, 검증 데이터셋으로는 17만쌍을 활용했습니다.
GraphCodeRoberta 5 Fold (총합 450만쌍) 모델은 Public LB 기준 0.9799가 나왔습니다.
여기에다가 PLBART, CodeT5 모델을 앙상블시키며(총합 979만쌍) Public LB 0.9813까지 상승했습니다.
물론 많은 데이터셋을 입력하고, 좋은 PLM을 앙상블하면 성능이 오릅니다.
그러나 각 모델 별로 성능을 고도화하는 작업도 중요했습니다.
따라서 팀이 사용한 세부 전략과 참고한 논문은 다음과 같습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사합니다