월간 데이콘 코드 유사성 판단 AI 경진대회

알고리즘 | NLP | 분류 | 유사성 | Accuracy

상금 600만 원
925명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[Private 1등/0.9909] graphcodebert + codebert_mlm 앙상블

Gmin47

공동작성자

2022.06.16 17:26 5,618 조회 language

안녕하세요. 이번 대회의 Private 1등 팀입니다.

데이콘 대회에 처음 참여하여 팀원과 이렇게 좋은 성적을 거두게 되어 영광이고, 데이콘에 공유된 다른 유능한 분들의 소중한 자료들로 인해 저희가 1등을 하게 될 수 있었던 것 같습니다.

다양한 팁과 소스를 공유해주신 모든 분들께 감사의 말씀을 드립니다.

전처리의 경우 Baseline 및 청소님의 소스를 활용했고, 저희가 사용한 언어모델은 microsoft의 graphcodebert, codebert-base-mlm, 그리고 mrm8488/CodeBERTaPy 입니다.

저희는 기존 데이콘 학습데이터와 함께 IBM의 CodeNet를 추가적으로 학습/검증 데이터로 활용하였고, 이를 위해 3단계의 필터링 작업을 진행했습니다.

3개의 모델을 각각 학습하였고, 마지막 inference 과정에서는 앙상블을 통해 성능을 향상시킬 수 있었습니다.

결과적으로 microsoft의 graphcodebert, codebert-base-mlm 두 모델을 사용했을 때 성능이 가장 좋았습니다.

코드, 성능 결과, 앙상블에 사용한 모델 링크 공유합니다.

Github: https://github.com/Gyeongmin47/code_similarity
링크: https://drive.google.com/drive/folders/1kpm-Soni_WZB16E6P9PmvsL2e3TCKrhe?usp=sharinghttps://drive.google.com/drive/folders/1kpm-Soni_WZB16E6P9PmvsL2e3TCKrhe?usp=sharing

감사합니다. :)