월간 데이콘 코드 유사성 판단 AI 경진대회

알고리즘 | NLP | 분류 | 유사성 | Accuracy

  • moneyIcon Prize : 총 600만 원
  • 907명 마감

 

[Private 4등/Graphcodebert] 1. 데이터 전처리

공동작성자

stroke
2022.06.10 21:26 1,976 Views language

안녕하세요! Private 4등으로 이번 대회를 마무리하게 된 포스빌런 팀입니다.
저희는 지난 데이콘 Basic 소비자 데이터 기반 소비 예측 대회 출전 후 처음으로 데이콘 대회에 참여하게 되었는데 이렇게 좋은 성적을 거두게 되어 영광입니다.
데이콘에 활발하게 공유되고 있는 코드들을 많이 참고하며 공부했는데 그 덕에 이렇게 좋은 결과가 있을 수 있었습니다.
이번 대회 중에도 Baseline 및 팁들을 공유해주신 분들께 감사드립니다.

tokenizer와 model은 마이크로소프트에서 코드 분석을 위해 개발한 Graphcodebert 사전학습모델을 사용했습니다.

글은
1. 데이터 전처리
https://dacon.io/competitions/official/235900/codeshare/5127
2. Graphcodebert 1 fold 3 epochs 모델
https://dacon.io/competitions/official/235900/codeshare/5128
3. Graphcodebert 5 fold 1 epoch 모델 + 이전 모델과 softvoting 및 hardvoting
https://dacon.io/competitions/official/235900/codeshare/5129
순으로 게시하겠습니다.

----------------------------------------------------------------------------------------------------------------

유사도가 낮지만 같은 기능을 수행하는 코드 Pair와 유사도가 높지만 다른 기능을 수행하는 코드 Pair, 즉 높은 난이도의 Positive Pair와 Negative Pair를 학습시키는 것이 좋을 것이라고 예상하였으나 랜덤으로 구성한 코드 Pair의 성능이 더 좋아 해당 방법으로 코드 Pair를 구성했습니다.

Code