분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 1등/0.9909] graphcodebert + codebert_mlm 앙상블
안녕하세요. 이번 대회의 Private 1등 팀입니다.
데이콘 대회에 처음 참여하여 팀원과 이렇게 좋은 성적을 거두게 되어 영광이고, 데이콘에 공유된 다른 유능한 분들의 소중한 자료들로 인해 저희가 1등을 하게 될 수 있었던 것 같습니다.
다양한 팁과 소스를 공유해주신 모든 분들께 감사의 말씀을 드립니다.
전처리의 경우 Baseline 및 청소님의 소스를 활용했고, 저희가 사용한 언어모델은 microsoft의 graphcodebert, codebert-base-mlm, 그리고 mrm8488/CodeBERTaPy 입니다.
저희는 기존 데이콘 학습데이터와 함께 IBM의 CodeNet를 추가적으로 학습/검증 데이터로 활용하였고, 이를 위해 3단계의 필터링 작업을 진행했습니다.
3개의 모델을 각각 학습하였고, 마지막 inference 과정에서는 앙상블을 통해 성능을 향상시킬 수 있었습니다.
결과적으로 microsoft의 graphcodebert, codebert-base-mlm 두 모델을 사용했을 때 성능이 가장 좋았습니다.
코드, 성능 결과, 앙상블에 사용한 모델 링크 공유합니다.
Github: https://github.com/Gyeongmin47/code_similarity
링크: https://drive.google.com/drive/folders/1kpm-Soni_WZB16E6P9PmvsL2e3TCKrhe?usp=sharinghttps://drive.google.com/drive/folders/1kpm-Soni_WZB16E6P9PmvsL2e3TCKrhe?usp=sharing
감사합니다. :)
안녕하세요!
97.1로 확인되는데, 사실 그 이후에도 저희가 추가 전처리를 했기 때문에 정확한 비교는 조금 어려울것 같아요ㅠ
참고 부탁드려요 :)
참고하겠습니다
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
자세한 코드공개 고맙습니다 ^^
혹시 codenet 데이터 추가 없이 최종 사용하신 graphcodebert + codebert_mlm 앙상블 accuracy 결과는 어느정도 나오는지 알수있을까요?