코드 유사성 판단 시즌2 AI 경진대회

알고리즘 | 월간 데이콘 | NLP | 유사도 | Accuracy

  • moneyIcon 상금 : 인증서
  • 308명 마감

 

[private3위/ 0.9861] graphcodebert

2024.04.03 18:58 368 조회 language

안녕하세요! private 3위로 대회를 마무리 하게 된 code7ssage입니다
NLP 대회를 처음 나가 보는데, 생각보다 많은량의 train데이터가 필요해서 놀랐네요.
많은 분들이 좋은 코드를 공유해주셔서 좋은 결과로 마무리 할 수 있었던 것 같습니다 감사합니다:)
특히 C++ 코드 전처리를 어느정도로 해야 될 지 감이 잘 안잡혔는데, 최대 코드 길이가 512가 넘는 코드들이 많아서, 최대한 코드 길이를 줄이는 방향으로 전처리를 진행 했습니다.

개발 환경은 Colab이고 GPU는 colab의 A100 40GB사용했습니다, 
모델은 Graphcodebert 사용했습니다
(https://huggingface.co/microsoft/graphcodebert-base/tree/main)
라이브러리 버전은 아래와 같습니다
pandas: 1 .5 .3
numpy:  1 .25 .2
torch:  2 .2. 1+cu121
transformers: 4 .38 .2
sklearn: 1 .2 .2

코드에 대한 전반적인 설명은 ppt에 나와 있습니다
*코드가 정리가 안되어 있어서 최종 정리해서 다시 올립니다*
모두들 대회 수고하셨습니다!

PDF
코드
로그인이 필요합니다
0 / 1000
틀니
2024.04.07 15:55

멋져요

잉으잉
2024.04.07 23:27

좋은 성적 축하드립니다! 혹시 모델들 training할때 어느정도 시간 걸리셨나요?? 저는 codebert로 하려고 했는데 모델 학습이 너무 오래 걸려 train dataset을 많이 줄여 학습시켰고 그 결과인지 제대로 예측을 못하더라구요..

code7ssage
2024.04.07 23:37

a100기준 150만쌍이 epoch 하나당 3.5시간*4= 총14시간, 200만쌍이 epoch하나당 4.5시간*3= 총 13시간 반, test 예측까지 포함하면 총 30시간 정도 걸린거 같습니다! 
다른 gpu사용했을 때는 저도 너무 오래걸려서, 좀 비싸더라도 a100으로 했던것 같습니다ㅎㅎ
단일 모델 기준으로 train_data가 150만쌍 넘어가면 모델 성능이 비슷했던 것 같습니다

잉으잉
2024.04.20 23:57

감사합니다.. 제 train data가 많이 모자라서 그랬군요. train data  수정해서 다시 한번 해봐야겠네요. 좋은경험 공유해주셔서 감사합니다!