분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 2위, bert 파인튜닝 활용
텍스트를 BERT 구조로 인코딩하고, 문장 임베딩을 통해 감정 분류를 수행합니다.
데이터 전처리 과정에서는 BERT의 토크나이저를 사용해 텍스트를 토큰화하고, 모델 입력 형식에 맞게 패딩과 시퀀스 길이를 조절하였습니다. 또한, 클래스 불균형 문제를 해결하기 위해 compute_class_weight로 가중치를 계산한 뒤, 이를 CrossEntropyLoss에 적용하여 소수 클래스에 대한 성능을 개선하였습니다.
학습 과정에서는 AdamW 옵티마이저와 get_cosine_schedule_with_warmup을 사용해 학습률을 점진적으로 조절하였으며, 드롭아웃 정규화를 통해 오버피팅을 방지하고 모델의 일반화 성능을 높였습니다.
* 컴퓨팅 환경
- Colab pro
* 주요 라이브러리 버전
mxnet 1.9.1
sentencepiece 0.1.99
torch 2.4.0+cpu
torch-xla 2.4.0+libtpu
torchaudio 2.4.0+cpu
torchvision 0.19.0+cpu
numpy 1.23.1
tqdm 4.66.5
transformers 4.44.2
kobert-tokenizer 0.1
scikit-learn 1.3.2
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved