분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[private3위/ 0.9861] graphcodebert
안녕하세요! private 3위로 대회를 마무리 하게 된 code7ssage입니다
NLP 대회를 처음 나가 보는데, 생각보다 많은량의 train데이터가 필요해서 놀랐네요.
많은 분들이 좋은 코드를 공유해주셔서 좋은 결과로 마무리 할 수 있었던 것 같습니다 감사합니다:)
특히 C++ 코드 전처리를 어느정도로 해야 될 지 감이 잘 안잡혔는데, 최대 코드 길이가 512가 넘는 코드들이 많아서, 최대한 코드 길이를 줄이는 방향으로 전처리를 진행 했습니다.
개발 환경은 Colab이고 GPU는 colab의 A100 40GB사용했습니다,
모델은 Graphcodebert 사용했습니다
(https://huggingface.co/microsoft/graphcodebert-base/tree/main)
라이브러리 버전은 아래와 같습니다
pandas: 1 .5 .3
numpy: 1 .25 .2
torch: 2 .2. 1+cu121
transformers: 4 .38 .2
sklearn: 1 .2 .2
코드에 대한 전반적인 설명은 ppt에 나와 있습니다
*코드가 정리가 안되어 있어서 최종 정리해서 다시 올립니다*
모두들 대회 수고하셨습니다!
좋은 성적 축하드립니다! 혹시 모델들 training할때 어느정도 시간 걸리셨나요?? 저는 codebert로 하려고 했는데 모델 학습이 너무 오래 걸려 train dataset을 많이 줄여 학습시켰고 그 결과인지 제대로 예측을 못하더라구요..
a100기준 150만쌍이 epoch 하나당 3.5시간*4= 총14시간, 200만쌍이 epoch하나당 4.5시간*3= 총 13시간 반, test 예측까지 포함하면 총 30시간 정도 걸린거 같습니다!
다른 gpu사용했을 때는 저도 너무 오래걸려서, 좀 비싸더라도 a100으로 했던것 같습니다ㅎㅎ
단일 모델 기준으로 train_data가 150만쌍 넘어가면 모델 성능이 비슷했던 것 같습니다
감사합니다.. 제 train data가 많이 모자라서 그랬군요. train data 수정해서 다시 한번 해봐야겠네요. 좋은경험 공유해주셔서 감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
멋져요