분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 2위, bert 파인튜닝 활용
텍스트를 BERT 구조로 인코딩하고, 문장 임베딩을 통해 감정 분류를 수행합니다.
데이터 전처리 과정에서는 BERT의 토크나이저를 사용해 텍스트를 토큰화하고, 모델 입력 형식에 맞게 패딩과 시퀀스 길이를 조절하였습니다. 또한, 클래스 불균형 문제를 해결하기 위해 compute_class_weight로 가중치를 계산한 뒤, 이를 CrossEntropyLoss에 적용하여 소수 클래스에 대한 성능을 개선하였습니다.
학습 과정에서는 AdamW 옵티마이저와 get_cosine_schedule_with_warmup을 사용해 학습률을 점진적으로 조절하였으며, 드롭아웃 정규화를 통해 오버피팅을 방지하고 모델의 일반화 성능을 높였습니다.
* 컴퓨팅 환경
- Colab pro
* 주요 라이브러리 버전
mxnet 1.9.1
sentencepiece 0.1.99
torch 2.4.0+cpu
torch-xla 2.4.0+libtpu
torchaudio 2.4.0+cpu
torchvision 0.19.0+cpu
numpy 1.23.1
tqdm 4.66.5
transformers 4.44.2
kobert-tokenizer 0.1
scikit-learn 1.3.2
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved