분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 1등/0.9909] graphcodebert + codebert_mlm 앙상블
공동작성자
안녕하세요. 이번 대회의 Private 1등 팀입니다.
데이콘 대회에 처음 참여하여 팀원과 이렇게 좋은 성적을 거두게 되어 영광이고, 데이콘에 공유된 다른 유능한 분들의 소중한 자료들로 인해 저희가 1등을 하게 될 수 있었던 것 같습니다.
다양한 팁과 소스를 공유해주신 모든 분들께 감사의 말씀을 드립니다.
전처리의 경우 Baseline 및 청소님의 소스를 활용했고, 저희가 사용한 언어모델은 microsoft의 graphcodebert, codebert-base-mlm, 그리고 mrm8488/CodeBERTaPy 입니다.
저희는 기존 데이콘 학습데이터와 함께 IBM의 CodeNet를 추가적으로 학습/검증 데이터로 활용하였고, 이를 위해 3단계의 필터링 작업을 진행했습니다.
3개의 모델을 각각 학습하였고, 마지막 inference 과정에서는 앙상블을 통해 성능을 향상시킬 수 있었습니다.
결과적으로 microsoft의 graphcodebert, codebert-base-mlm 두 모델을 사용했을 때 성능이 가장 좋았습니다.
코드, 성능 결과, 앙상블에 사용한 모델 링크 공유합니다.
Github: https://github.com/Gyeongmin47/code_similarity
링크: https://drive.google.com/drive/folders/1kpm-Soni_WZB16E6P9PmvsL2e3TCKrhe?usp=sharinghttps://drive.google.com/drive/folders/1kpm-Soni_WZB16E6P9PmvsL2e3TCKrhe?usp=sharing
감사합니다. :)
안녕하세요!
97.1로 확인되는데, 사실 그 이후에도 저희가 추가 전처리를 했기 때문에 정확한 비교는 조금 어려울것 같아요ㅠ
참고 부탁드려요 :)
참고하겠습니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
자세한 코드공개 고맙습니다 ^^
혹시 codenet 데이터 추가 없이 최종 사용하신 graphcodebert + codebert_mlm 앙상블 accuracy 결과는 어느정도 나오는지 알수있을까요?