도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회

LLM 돌리시는 분들 다들 model.generate할 때 오래걸리시나요??

2024.02.02 01:16 1,826 Views

LLM 돌리시는 분들 다들 model.generate할 때 오래걸리시나요??

Login Required
0 / 1000
홍짜장
2024.02.02 09:46

Max Token 수, Batch Size, 모델 사이즈 등등에 따라 달라집니다.

파라미터를 조절하시면 추론 시간 또한 효율적으로 사용 가능하십니다.

하지만 기존 대회들과 달리 아무래도 느린 것은 사실이네요 ㅜ.ㅜ

byc3230
2024.02.02 15:04

위의 답변에 상세 설명일 듯 싶은데요! model.generate 호출할때 data_loader -> batch_size 통해서 배치 인퍼런스 하시면 추론 시간이 많이 절약되며, model.generate 의 max_new_tokens 줄일 수록 데이터의 양이 짤려서 빠르게 인퍼런스 되긴 합니다.

DarkKinght
2024.02.02 14:37

근데 max new token이나, max_length로 길이를 한정하면, 문장이 뚝 짤리는 느낌으로 끝나지 않나요?

byc3230
2024.02.02 14:44

@꾸라짱 님 맞습니다. 그 부분은 추론 속도를 높이느냐, 추론 데이터 퀄리티를 높이느냐..트레이드 오프 관계이긴 합니다..그래서 개인적으로는 data_loader 를 이용한 "배치 인퍼런스"를 추천 드립니다.