분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
모델 비교실험 결과 공유
모든 변수는 동일하고 모델만 바꿔서 실험했습니다. 점수는 Public score를 의미합니다.
감사합니다 :)
정보 감사합니다 ㅠ GPU사양이랑 추론 시간은 얼마나 걸리시는지 여쭤봐도 될까요?
4060ti 16gb 사용하고 있습니다.
정확한 시간을 기록해놓진 않아서..
훈련시간은 모두 5~7시간 정도 걸렸고
추론 시간은 20분~ 40분 정도 걸립니다.
google/gemma-2-9b-it 모델은 훈련하는데 5시간 28분, 추론 하는데 24분 걸렸습니당:)
감사합니다
저도 돌려보니 Qwen/Qwen3-8B 모델이 현재까진 가장 좋더라구여
학습은 몇 에폭 정도 돌리셨나요?
검증 데이터로 20% 떼어내고 배치 8 / 스탭 2000으로 돌렸습니다.
에폭으로 하면 2.7에폭 정도 되는 거 같아요:)
Qwen3-14B 모델은 양자화해서 돌리신건가요?
네 :)
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
또 이렇게 성능 정리까지 깔끔하게 올려주셔서 감사합니다. 수고 많으십니다!