월간 데이콘 코드 유사성 판단 AI 경진대회

알고리즘 | NLP | 분류 | 유사성 | Accuracy

  • moneyIcon 상금 : 총 600만 원
  • 883명 마감

 

[Private 35 / 0.96088] CodeBERTa_small_v1

2022.06.16 23:22 1,848 조회 language

* Train data 설명
- sample_train.csv 를 사용하지 않고, 제공받은 code 폴더 속 모든 코드들을 데이터프레임으로 만든 후 code.csv로 만들어 train data로 사용했습니다.
- 코드 전처리를 매우 사소한 부분까지 코드의 구조를 간단하게 만드려는 목표 하에 수행했습니다.
- graphcodebert-base tokenizer 사용하여 코드 토큰의 길이가 512이하가 되도록 잘랐습니다.
- code가 가장 짧은 순서대로 정렬 후 각 problem마다 조합으로 두개를 뽑아서 <150C2=11175> 각 problem의 가장 짧은 code를 기준으로 이 코드와 다른 코드들의 유사도 점수 계산하였습니다. 현재 problem에 있는 코드들과 negative 코드들과의 pair쌍을 만들었습니다. < 총 150*(11175//150)개 생성>

* 모델 설명
- huggingface의 CodeBERTa_small_v1 모델을 사용하였습니다.
- 전체 train 데이터에서 150만개를 먼저 학습 후 저장한 모델을 불러와 해당 모델에 50만개 데이터를 추가 학습시켰습니다. (GPU 과부하 방지)

코드
이전 글
이전 글이 존재하지 않습니다.
현재 글
[Private 35 / 0.96088] CodeBERTa_small_v1
대회 - 월간 데이콘 코드 유사성 판단 AI 경진대회
좋아요 9
조회 1,848
댓글 0
2년 전
다음 글
Encoder is All you Need | 상하목장스누피팀
대회 - 월간 데이콘 코드 유사성 판단 AI 경진대회
좋아요 31
조회 3,068
댓글 1
2년 전