Context-Based Sentence Order Prediction AI Competition

Algorithm | Montly Dacon | NLP | Generate AI | LLM | Accuracy

  • moneyIcon Prize : DASCHOOL Pro Subscription
  • 406 Users Completed

 

모델 비교실험 결과 공유

2025.06.16 21:51 738 Views

모든 변수는 동일하고 모델만 바꿔서 실험했습니다. 점수는 Public score를 의미합니다.


  1. meta-llama/Llama-3.1-8B-Instruct: 0.8202
  2. openchat/openchat-3.5-0106: 0.8235
  3. yanolja/EEVE-Korean-Instruct-10.8B-v1.0: 0.8561
  4. MLP-KTLim/llama-3-Korean-Bllossom-8B: 0.8224
  5. Qwen/Qwen3-14B: 0.8685
  6. google/gemma-2-9b-it: 0.8573
  7. FractalAIResearch/Fathom-R1-14B: 0.8561
  8. sometimesanotion/Lamarck-14B-v0.7: 0.8561


Login Required
0 / 1000
과적합방지위원회
2025.06.17 01:37

또 이렇게 성능 정리까지 깔끔하게 올려주셔서 감사합니다. 수고 많으십니다!

goorm
2025.06.17 02:23

감사합니다 :)

국어선생님
2025.06.17 07:44

정보 감사합니다 ㅠ GPU사양이랑 추론 시간은 얼마나 걸리시는지 여쭤봐도 될까요?

goorm
2025.06.17 09:30

4060ti 16gb 사용하고 있습니다.

정확한 시간을 기록해놓진 않아서..
훈련시간은 모두 5~7시간 정도 걸렸고 
추론 시간은 20분~ 40분 정도 걸립니다. 

google/gemma-2-9b-it 모델은 훈련하는데 5시간 28분, 추론 하는데 24분 걸렸습니당:)

123123
2025.06.18 10:40

감사합니다

저도 돌려보니 Qwen/Qwen3-8B 모델이 현재까진 가장 좋더라구여

학습은 몇 에폭 정도 돌리셨나요?

goorm
2025.06.18 16:49

검증 데이터로 20% 떼어내고 배치 8 / 스탭 2000으로 돌렸습니다. 
에폭으로 하면 2.7에폭 정도 되는 거 같아요:)

박영기
2025.06.21 10:21

Qwen3-14B 모델은 양자화해서 돌리신건가요?

goorm
2025.06.21 10:22

네 :)