분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 1st] Pre-Processing + BERTweet-large + K-fold
공동작성자
안녕하세요. 팀 세모세입니다.
사전학습 모델로 BERT, RoBERTa, BERTweet 등을 시험했으며, 그 중 BERTweet의 성능이 가장 좋았습니다.
데이터 전처리
- 여러 번의 실험 끝에 전처리를 많이 하는 것보다 최소한의 전처리만 하는 것이 정확도가 높아 최소한의 전처리만 진행하였습니다.
- @유저이름(멘션)을 모두 "@user"로 치환하며, 연속된 @user들은 하나만 남도록 처리했습니다.
("@YoungIn @AI @hackathon"-> "@uesr")
- 각종 사이트 주소는 "http"로 치환했습니다.
("https://naver.com" -> "http")
- 최대 토큰 수를 제한함으로써 text데이터에서 영어 이외의 언어를 제외하고 학습 속도를 높였습니다.
- 최대 토큰 수의 경우, 여러 번의 실험 끝에 가장 적합한 110으로 제한하였습니다.
데이터 증강
증강하지 않을 때의 결과가 더 좋아 데이터 증강은 하지 않았습니다.
모델링 및 학습
bertweet-large모델을 기반으로 Stratified K-fold를 사용하여 교차검증하였습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved