분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 35 / 0.96088] CodeBERTa_small_v1
* Train data 설명
- sample_train.csv 를 사용하지 않고, 제공받은 code 폴더 속 모든 코드들을 데이터프레임으로 만든 후 code.csv로 만들어 train data로 사용했습니다.
- 코드 전처리를 매우 사소한 부분까지 코드의 구조를 간단하게 만드려는 목표 하에 수행했습니다.
- graphcodebert-base tokenizer 사용하여 코드 토큰의 길이가 512이하가 되도록 잘랐습니다.
- code가 가장 짧은 순서대로 정렬 후 각 problem마다 조합으로 두개를 뽑아서 <150C2=11175> 각 problem의 가장 짧은 code를 기준으로 이 코드와 다른 코드들의 유사도 점수 계산하였습니다. 현재 problem에 있는 코드들과 negative 코드들과의 pair쌍을 만들었습니다. < 총 150*(11175//150)개 생성>
* 모델 설명
- huggingface의 CodeBERTa_small_v1 모델을 사용하였습니다.
- 전체 train 데이터에서 150만개를 먼저 학습 후 저장한 모델을 불러와 해당 모델에 50만개 데이터를 추가 학습시켰습니다. (GPU 과부하 방지)
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved