월간 데이콘 코드 유사성 판단 AI 경진대회

알고리즘 | NLP | 분류 | 유사성 | Accuracy

  • moneyIcon 상금 : 총 600만 원
  • 889명 마감

 

코드 텍스트 데이터 전처리 방법 공유

2022.06.15 16:28 1,920 조회 language

대회가 끝났지만, 좋은 성적을 내신 분들의 코드를 다시보면 공부를 하고 있습니다.
그러다가 제가 활용한 텍스트 전처리 방법을 공유해보고자 글을 적게 되었습니다. 
생각보다 코드를 작성하는 사람마다 다양하게 작성을 하고 있다는 걸 이번에 새삼 느끼게 되었고, 
진짜 고정된 문법이 있는 코드 텍스트에 대한 처리가 쉽지 않다는 것을 알게 되었습니다. 
저는 제가 생성한 전처리 모듈을 활용해 데이터 전처리 작업을 진행했고, 
codebert-small 로 모델을 생성해 학습한 결과 0.955라는 점수를 얻었습니다.
이때 활용한 학습 데이터는 전체 데이터에서 긍정 6만개 부정 6만개의 random pair로 데이터를 두번 생성해 
차례대로 학습한 후 가장 높은 checkpoint 모델을 활용해 학습 시키는 방법을 선택했습니다. 

코드 진행 시 문제나 다른 오류가 있을 경우 알려주시면 좋을 것 같아요!! 

코드
로그인이 필요합니다
0 / 1000
리콜너마저
2022.07.20 23:57

참고해서 공부하겠습니다