Dacon Monthly Code Similarity Comparision AI Competition

Algorithm | NLP | Classification | Similarity | Accuracy

Prize : 총 600만 원
2022.05.02 ~ 2022.06.10 16:59 + Google Calendar
913 Users Completed

Practice

Overview Data Code (share) Talk Leaderboard

Submission

[Private 35 / 0.96088] CodeBERTa_small_v1

멍멍멍

2022.06.16 23:22 3,499 Views language

* Train data 설명
- sample_train.csv 를 사용하지 않고, 제공받은 code 폴더 속 모든 코드들을 데이터프레임으로 만든 후 code.csv로 만들어 train data로 사용했습니다.
- 코드 전처리를 매우 사소한 부분까지 코드의 구조를 간단하게 만드려는 목표 하에 수행했습니다.
- graphcodebert-base tokenizer 사용하여 코드 토큰의 길이가 512이하가 되도록 잘랐습니다.
- code가 가장 짧은 순서대로 정렬 후 각 problem마다 조합으로 두개를 뽑아서 <150C2=11175> 각 problem의 가장 짧은 code를 기준으로 이 코드와 다른 코드들의 유사도 점수 계산하였습니다. 현재 problem에 있는 코드들과 negative 코드들과의 pair쌍을 만들었습니다. < 총 150*(11175//150)개 생성>

* 모델 설명
- huggingface의 CodeBERTa_small_v1 모델을 사용하였습니다.
- 전체 train 데이터에서 150만개를 먼저 학습 후 저장한 모델을 불러와 해당 모델에 50만개 데이터를 추가 학습시켰습니다. (GPU 과부하 방지)

Code