분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
코드 텍스트 데이터 전처리 방법 공유
대회가 끝났지만, 좋은 성적을 내신 분들의 코드를 다시보면 공부를 하고 있습니다.
그러다가 제가 활용한 텍스트 전처리 방법을 공유해보고자 글을 적게 되었습니다.
생각보다 코드를 작성하는 사람마다 다양하게 작성을 하고 있다는 걸 이번에 새삼 느끼게 되었고,
진짜 고정된 문법이 있는 코드 텍스트에 대한 처리가 쉽지 않다는 것을 알게 되었습니다.
저는 제가 생성한 전처리 모듈을 활용해 데이터 전처리 작업을 진행했고,
codebert-small 로 모델을 생성해 학습한 결과 0.955라는 점수를 얻었습니다.
이때 활용한 학습 데이터는 전체 데이터에서 긍정 6만개 부정 6만개의 random pair로 데이터를 두번 생성해
차례대로 학습한 후 가장 높은 checkpoint 모델을 활용해 학습 시키는 방법을 선택했습니다.
코드 진행 시 문제나 다른 오류가 있을 경우 알려주시면 좋을 것 같아요!!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
참고해서 공부하겠습니다