도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회

알고리즘 | 언어 | LLM | MLOps | QA | Cosine Similarity

  • moneyIcon 상금 : 1000만 원
  • 1,381명 마감

 

QLoRA + 4bit quantization + LDCC-SOLAR-10.7B(≈9GB vram used)

2024.02.14 22:07 3,262 조회 language

inference 부분은 HyunsooLee님이 좋은 코드를 올려놓으셨기 때문에 그 코드 활용하시면 될 것 같습니다..
QLoRA랑 base model merge 하신 뒤에 베이스라인 코드 inference 부분 쓰셔도 됩니다
target_modules는 모델에 따라 다르니 바꾸시면 됩니다

코드
로그인이 필요합니다
0 / 1000
basslibrary
2024.02.15 22:31

저는 VRAM 8GB 짜리 GPU로 쓰는데, 6B 모델을 qLora 로 돌리려다가 오류가 나는 바람에
더 큰 모델은 생각도 못하고, 1.3B 모델만 쓰고 있는데, 한번 시도 해봐야 겠네요.
감사합니다.
추신, VRAM 8GB로는 1 batch도 못 돌립니다.

귀여미
2024.02.16 13:46

아무래도 8기가 내로 돌리시려면 7B 모델 쓰시거나 QLoRA말고 다른 방법을 택하셔야 할것 같습니다

꾸라짱
2024.02.18 19:25

이거하면 순위표에서 몇점 정도 나오나요?

귀여미
2024.02.19 13:03

데이터 그대로 쓰면 0.6후반이나 0.7초반으로 나오지 않을까 싶네요.. 아마 이 대회는 주어진 데이터를 어떻게 늘리냐 싸움 같습니다

베너
2024.02.20 21:05

안녕하세요! 참가에 의의를 두고 있는 초심자 입니다. 혹시 말씀하신 분의 Inference code 는 gguf 파일을 사용하는 것 같은데 SOLAR 모델 pretraining 한 것은 pth 파일로 저장되는 것으로 알고 있습니다. 이리저리 해보다가 토크 게시판을 보니 SOLAR 기반 모델들의 경우에는 llama-cpp 를 사용하지 못한다고 하는데 그렇다면 Inference code 의 대부분을 수정해서 사용하신걸까요..? 

대회 결과에 필수적인 부분이긴 하지만 자료를 잘 찾아보지 못하겠어서 댓글 남깁니다.. 
다시한번 코드 공유에 감사드립니다!

귀여미
2024.02.20 21:09

저는 outputs 폴더에 로라 어댑터 파일을 솔라 베이스 모델에 합쳐서 베이스라인 코드 그대로 사용했습니다.. 아마 peft 라이브러리 쓰시면 코드 몇출로 합칠 수 있을거에요

베너
2024.02.20 21:16

감사합니다! 참고해서 해보겠습니다!!

text121
2024.02.21 01:30

LoraConfig 에서 target_modules은 정해져있는건가요 아니면 작성하는기준이 따로있는건가요?

귀여미
2024.02.22 12:54
채승
2024.02.24 18:49

사용하시는 모델에 따라 다릅니다. 사용하시는 모델이 어떤 모델을 기반으로 하는지 찾아보시고 [모델 이름] lora_target_modules라고 구글링하시면 나올겁니다.

무재킹
2024.02.27 21:19

질문 하나 추론하는데 얼마나 걸리셨나요??

귀여미
2024.02.27 21:20

12초정도 걸립니다

무재킹
2024.02.28 09:52

삭제된 댓글입니다

BlackDragon
2024.03.01 20:57

Baseline 공유 감사드립니다!

혹시 pad토큰을 eos토큰으로 굳이 바꿔서 사용하신 이유가 있을지 여쭙고 싶습니다.

귀여미
2024.05.09 00:13

삭제된 댓글입니다

비빅바
2024.03.09 16:24

잉?? gpu 메모리 9기가로 이 10억짜리 파라미터 모델이 파인튜닝이 된다고요?? 뭔가 착각하신거 아니에요??  

귀여미
2024.03.09 16:26

qlora학습이라 풀파인튜닝이랑은 차이가 있습니다