코드 유사성 판단 시즌2 AI 경진대회

알고리즘 | 월간 데이콘 | NLP | 유사도 | Accuracy

  • moneyIcon 상금 : 인증서
  • 319명 마감

 

[private 5위 / 0.98479] graphcodebert + codebert-base-mlm 앙상블

공동작성자

stroke
2024.04.02 02:13 348 조회 language

안녕하세요. Private 5등 팀입니다.
처음 대회에 참여해 운 좋게 상을 받은 거 같아 영광이고, 지난 시즌 1의 코드 공유 파일을 많이 참고하여 좋은 성적을 낼 수 있었습니다.
전체 코드 틀은 지난 대회의 Gmin47님, 데이터 샘플링은 지난대회의 나일강님의 코드를 베이스로 사용하여 작성하였습니다.
저희는 neulab/codebert-cpp와 microsoft/graphcodebert-base 두 모델을 각각 180만 행의 데이터를 사용해 파인튜닝하였고, 앙상블 해 최종 Score를 제출했습니다. 

개발환경: Colab A100 
transformers==4.38.2
torch==2.2.1+cu121
scikit-learn==1.2.2
라이브러리 및 자세한 실행 환경은 Github 안에 첨부하였습니다.

Github: 
https://github.com/chahanyeong/cpp-code-similarity

Model:
https://huggingface.co/microsoft/graphcodebert-base/tree/main
https://huggingface.co/microsoft/codebert-base-mlm/tree/main

다들 대회 수고 많으셨습니다!

PDF
코드