데이스쿨! 가을맞이 특별할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 3rd, 최종 4등 LoRA-based slicing
https://github.com/naturesh/bridge-blip 자세한 내용은 깃허브 참고 부탁드립니다.
저는 baseline과 같은 종류인 blip 계열 모델에서 불필요한 파라메터를 제거하여 대회 조건을 만족시키면서 객관식 문제를 풀고자 하였습니다.
따라서 instructblip-flan-t5-xl 모델 약 4B 모델에서 flan-t5-xl의 decoder 파트가 담당하는 Autoregressive 한 능력을 제거해 파라메터를 줄이고자 하였습니다.
학습은 간단히 LoRA 와 Classfication Head만을 학습하기 때문에 A100 40GB 기준 2시간 30분정도 소요됩니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
공유 감사합니다. 저랑 같은 발상을 떠올리셨는데 구현 방식이 다른 게 흥미롭네요..!!