월간 데이콘 코드 유사성 판단 AI 경진대회

알고리즘 | NLP | 분류 | 유사성 | Accuracy

  • moneyIcon Prize : 총 600만 원
  • 908명 마감

 

[Private 1등/0.9909] graphcodebert + codebert_mlm 앙상블

공동작성자

stroke
2022.06.16 17:26 3,979 Views language

안녕하세요. 이번 대회의 Private 1등 팀입니다. 

데이콘 대회에 처음 참여하여 팀원과 이렇게 좋은 성적을 거두게 되어 영광이고, 데이콘에 공유된 다른 유능한 분들의 소중한 자료들로 인해 저희가 1등을 하게 될 수 있었던 것 같습니다.

다양한 팁과 소스를 공유해주신 모든 분들께 감사의 말씀을 드립니다.

전처리의 경우 Baseline 및 청소님의 소스를 활용했고, 저희가 사용한 언어모델은 microsoft의 graphcodebert, codebert-base-mlm, 그리고  mrm8488/CodeBERTaPy 입니다.

저희는 기존 데이콘 학습데이터와 함께 IBM의 CodeNet를 추가적으로 학습/검증 데이터로 활용하였고, 이를 위해 3단계의 필터링 작업을 진행했습니다.

3개의 모델을 각각 학습하였고, 마지막 inference 과정에서는 앙상블을 통해 성능을 향상시킬 수 있었습니다.

결과적으로 microsoft의 graphcodebert, codebert-base-mlm 두 모델을 사용했을 때 성능이 가장 좋았습니다.

코드, 성능 결과, 앙상블에 사용한 모델 링크 공유합니다.

Github: https://github.com/Gyeongmin47/code_similarity
링크:  https://drive.google.com/drive/folders/1kpm-Soni_WZB16E6P9PmvsL2e3TCKrhe?usp=sharinghttps://drive.google.com/drive/folders/1kpm-Soni_WZB16E6P9PmvsL2e3TCKrhe?usp=sharing

감사합니다. :)

PDF
로그인이 필요합니다
0 / 1000
EDEEP
2022.06.19 11:38

자세한 코드공개 고맙습니다 ^^
혹시 codenet 데이터 추가 없이 최종 사용하신 graphcodebert + codebert_mlm    앙상블 accuracy 결과는 어느정도 나오는지 알수있을까요?

Gmin47
2022.06.19 15:27

안녕하세요! 

 97.1로 확인되는데, 사실 그 이후에도 저희가 추가 전처리를 했기 때문에 정확한 비교는 조금 어려울것 같아요ㅠ

참고 부탁드려요 :)

리콜너마저
2022.07.20 23:57

참고하겠습니다