월간 데이콘 코드 유사성 판단 AI 경진대회

알고리즘 | NLP | 분류 | 유사성 | Accuracy

  • moneyIcon 상금 : 총 600만 원
  • 891명 마감

 

[Private 4등/Graphcodebert] 2. 1 fold 3 epochs 모델 (0.9732)

공동작성자

stroke
2022.06.10 21:59 1,156 조회 language

안녕하세요! Private 4등으로 이번 대회를 마무리하게 된 포스빌런 팀입니다.
저희는 지난 데이콘 Basic 소비자 데이터 기반 소비 예측 대회 출전 후 처음으로 데이콘 대회에 참여하게 되었는데 이렇게 좋은 성적을 거두게 되어 영광입니다.
데이콘에 활발하게 공유되고 있는 코드들을 많이 참고하며 공부했는데 그 덕에 이렇게 좋은 결과가 있을 수 있었습니다.
이번 대회 중에도 Baseline 및 팁들을 공유해주신 분들께 감사드립니다.

tokenizer와 model은 마이크로소프트에서 코드 분석을 위해 개발한 Graphcodebert 사전학습모델을 사용했습니다.

글은
1. 데이터 전처리
https://dacon.io/competitions/official/235900/codeshare/5127
2. Graphcodebert 1 fold 3 epochs 모델
https://dacon.io/competitions/official/235900/codeshare/5128
3. Graphcodebert 5 fold 1 epoch 모델 + 이전 모델과 softvoting 및 hardvoting
https://dacon.io/competitions/official/235900/codeshare/5129
순으로 게시하겠습니다.

----------------------------------------------------------------------------------------------------------------
장비 성능과 시간의 한계로 5 fold 중 1 fold만 수행하고 학습을 중단하였습니다.
저장된 모델은 후에 보팅 시 사용하였습니다.

코드