2023 용인시 SW/AI 해커톤

용인시 | 알고리즘 | 언어 | 분류 | Macro F1 Score

상금 : 총 500만원
112명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[Private 11th] roBERTa-base

TJ미디어

공동작성자

2023.10.20 21:33 354 조회 language

안녕하세요 금시초밥인데요 입니다.
저희 팀은 roBERTa 모델을 사용하였고, 전처리는 따로 하지 않았습니다.
epoch은 10회, batch size는 16이였으며 최종제출 데이터는 epoch 7회 이후 얼리스탑했습니다.

아래는 저희가 시도해봤던 것들입니다.
모델
gaussiannb, linearSCV, BERT, roBERTa, BERTweet, distilBERT 등 많은 모델들을 사용해보았으나 roBERTa가 가장 성능이 좋았습니다.

전처리
전처리는 불용어, url, 문장부호, 숫자, 중복문자, 어간 추출, 형태소 추출을 시도해 보았습니다.
하지만 따로 전처리를 하지 않는 것이 더 성능이 좋아서 최종 코드에서 빼게 되었습니다.

데이터 증강
Wordnet기반으로 동의어를 활용해 train데이터를 4배로 증강시켜 보았습니다.
하지만 마찬가지로 성능이 사용하기 전보다 좋지 않아서 사용하지 않았습니다.

코드

댓글 0개

로그인이 필요합니다

comment

0 / 1000

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동하였습니다!

목록으로

이전 글이 존재하지 않습니다.

현재 글

[Private 11th] roBERTa-base

대회 - 2023 용인시 SW/AI 해커톤

7달 전

[Private 2nd] muppet-roberta-large + k-fold

대회 - 2023 용인시 SW/AI 해커톤

7달 전