분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
노이즈 제거, 띄어쓰기 전처리 후 KcELECTRA 모델로 예측
0. 라이브러리 및 설정
- py-torch, transformer
- 구글 코랩 (GPU), 구글 드라이브
1. 전처리
- 노이즈 제거 (한글만 남기기),
- 한글자 리뷰 제거 : train(12), test(8) 삭제
- 네이버 띄어쓰기, 맞춤법 (py-hanspell) 적용
2. 토크나이징 + 임베딩&패딩 (max_len=64)
- KcELECTRA
3. 데이터 분할: train(0.8) + valid(0.2)
4. 학습(train)
- SequenceClassification with KcELECTRA
- num_epochs=5
5. 평가(valid)
6. 예측값 생성(test)
7. 제출 자료 생성(submission)
- 제출 acc 0.6685
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved