Dacon Monthly Visual Question Answering AI Challenge

Algorithm | Multi-Modal | NLP | CV | VQA | Accuracy

 

[Private 5th] BlipForQuestionAnswering

2023.08.12 23:29 2,016 Views language

허깅페이스의 BlipForQuestionAnswering 구현체 + official pretrained BLIP weight를 기반으로 VQA task에 fine-tuning 시켰습니다.

전반적으로 가용 메모리가 작아서 (8gb) 메모리 효율적인 학습을 지향하였습니다.
- Freeze image encoder : Locked Image Tuning, BLIP2를 참고하여 freeze
- Gradient checkpointing
- Gradient accumulation (x4)
- Mixed precision training (fp16)

궁금하신 점은 질문주세요. 감사합니다.

Code