월간 데이콘 코드 유사성 판단 AI 경진대회

알고리즘 | NLP | 분류 | 유사성 | Accuracy

상금 600만 원
925명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[Private 35 / 0.96088] CodeBERTa_small_v1

멍멍멍

2022.06.16 23:22 4,734 조회 language

* Train data 설명
- sample_train.csv 를 사용하지 않고, 제공받은 code 폴더 속 모든 코드들을 데이터프레임으로 만든 후 code.csv로 만들어 train data로 사용했습니다.
- 코드 전처리를 매우 사소한 부분까지 코드의 구조를 간단하게 만드려는 목표 하에 수행했습니다.
- graphcodebert-base tokenizer 사용하여 코드 토큰의 길이가 512이하가 되도록 잘랐습니다.
- code가 가장 짧은 순서대로 정렬 후 각 problem마다 조합으로 두개를 뽑아서 <150C2=11175> 각 problem의 가장 짧은 code를 기준으로 이 코드와 다른 코드들의 유사도 점수 계산하였습니다. 현재 problem에 있는 코드들과 negative 코드들과의 pair쌍을 만들었습니다. < 총 150*(11175//150)개 생성>

* 모델 설명
- huggingface의 CodeBERTa_small_v1 모델을 사용하였습니다.
- 전체 train 데이터에서 150만개를 먼저 학습 후 저장한 모델을 불러와 해당 모델에 50만개 데이터를 추가 학습시켰습니다. (GPU 과부하 방지)

코드

댓글 0개

로그인이 필요합니다

comment

0 / 1000

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!

목록으로

이전 글이 존재하지 않습니다.

현재 글

[Private 35 / 0.96088] CodeBERTa_small_v1

대회 - 월간 데이콘 코드 유사성 판단 AI 경진대회

4년 전

Encoder is All you Need | 상하목장스누피팀

대회 - 월간 데이콘 코드 유사성 판단 AI 경진대회

4년 전