분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회
LLM 돌리시는 분들 다들 model.generate할 때 오래걸리시나요??
LLM 돌리시는 분들 다들 model.generate할 때 오래걸리시나요??
위의 답변에 상세 설명일 듯 싶은데요! model.generate 호출할때 data_loader -> batch_size 통해서 배치 인퍼런스 하시면 추론 시간이 많이 절약되며, model.generate 의 max_new_tokens 줄일 수록 데이터의 양이 짤려서 빠르게 인퍼런스 되긴 합니다.
근데 max new token이나, max_length로 길이를 한정하면, 문장이 뚝 짤리는 느낌으로 끝나지 않나요?
@꾸라짱 님 맞습니다. 그 부분은 추론 속도를 높이느냐, 추론 데이터 퀄리티를 높이느냐..트레이드 오프 관계이긴 합니다..그래서 개인적으로는 data_loader 를 이용한 "배치 인퍼런스"를 추천 드립니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
Max Token 수, Batch Size, 모델 사이즈 등등에 따라 달라집니다.
파라미터를 조절하시면 추론 시간 또한 효율적으로 사용 가능하십니다.
하지만 기존 대회들과 달리 아무래도 느린 것은 사실이네요 ㅜ.ㅜ