분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 3rd] SFT with Qwen3-14B + Checkpoint Ensemble
처음 NLP 경진 대회에 참여해 보았는데 좋은 성적을 받아 뿌듯하네요:) 먼저 코드 관련 내용을 요약하면 다음과 같습니다.
- 환경: Google Colab L4 (GPU RAM 22.5 GB) / CPU
- 모델: Qwen3-14B (Text Generation)
- 접근 방식: 데이터 증강 + Supervised Fine-tuning + Checkpoint Ensemble
- 비용: 훈련 24h (2898 스텝) / 추론 40m per model
보다 자세한 내용은 발표 자료, 그리고 깃허브 저장소를 참고해 주시기 바랍니다. 특히 이 페이지에 있는 코드는 하나의 노트북에 모든 코드를 다 넣은 것이라 보기도 힘들고 원본과 차이가 조금 있습니다. 깃허브 저장소에 있는 게 원본 코드입니다.
- 깃허브 저장소: https://github.com/Won-Seong/kor-sentence-ordering
- 모델 저장소: https://huggingface.co/JuyeopDang/Qwen-3-14B-Sentence-Ordering
개인으로 참여했고 자원도 부족해서 일반적인 Language Modeling 외 다른 접근을 충분히 시도해 보지 못했던 게 아쉽습니다. 그래도 한 달 동안 고생하면서 많은 걸 배울 수 있었네요. 모두들 고생하셨습니다👍
증강 덕에 성능 향상이 조금 있었던 것 같습니다. 고생하셨습니다!
증강과 SFT 방식이 간결하고 인상적입니다. 대회 고생 많으셨습니다!
좋은 말씀 감사합니다. 고생하셨습니다!
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
와 데이터 증강을 저렇게 시키는게 더 좋은 성능을 내었나 보네요. 많이 배워갑니다. 고생하셨습니다!