월간 데이콘 코드 유사성 판단 AI 경진대회

알고리즘 | NLP | 분류 | 유사성 | Accuracy

  • moneyIcon 상금 : 총 600만 원
  • 884명 마감

 

[Private 4등/Graphcodebert] 3. 5 fold 1 epoch (0.9784) + 보팅

공동작성자

stroke
2022.06.10 22:11 1,224 조회 language

안녕하세요! Private 4등으로 이번 대회를 마무리하게 된 포스빌런 팀입니다.
저희는 지난 데이콘 Basic 소비자 데이터 기반 소비 예측 대회 출전 후 처음으로 데이콘 대회에 참여하게 되었는데 이렇게 좋은 성적을 거두게 되어 영광입니다.
데이콘에 활발하게 공유되고 있는 코드들을 많이 참고하며 공부했는데 그 덕에 이렇게 좋은 결과가 있을 수 있었습니다.
이번 대회 중에도 Baseline 및 팁들을 공유해주신 분들께 감사드립니다.

tokenizer와 model은 마이크로소프트에서 코드 분석을 위해 개발한 Graphcodebert 사전학습모델을 사용했습니다.

글은
1. 데이터 전처리
https://dacon.io/competitions/official/235900/codeshare/5127
2. Graphcodebert 1 fold 3 epochs 모델
https://dacon.io/competitions/official/235900/codeshare/5128
3. Graphcodebert 5 fold 1 epoch 모델 + 이전 모델과 softvoting 및 hardvoting
https://dacon.io/competitions/official/235900/codeshare/5129
순으로 게시하겠습니다.

----------------------------------------------------------------------------------------------------------------

Google Colab 런타임 문제로 Fold 및 Epoch를 cell 단위로 나누어 진행하였습니다.
시간의 한계로 1 epoch만 진행했습니다.

코드