Dacon Monthly Visual Question Answering AI Challenge

Algorithm | Multi-Modal | NLP | CV | VQA | Accuracy

 

[Private 6th] git-large-coco GroupKFold ensemble

2023.08.10 17:20 1,951 Views language

git-large-coco 모델로 학습을 진행하였습니다.
https://github.com/leeheewon-01/image_question_answering_dacon

[학습환경]
GPU : RTX 3090Ti (x3)
RAM : 256GB

[batch size 설정]
GiT 논문에서는 IMAGENET으로 학습할 때 batch size를 4096으로 했는데, 대회에서 제공한 데이터셋은 Imagenet 보다 작은 10만개의 데이터셋이므로,
그보다 작은 768로 batch size를 설정하였습니다.
GPU resource 상 batch size를 무한히 늘릴 수 없다보니, 
per_device_train_batch_size를 8로 설정한 뒤, gradient_accumulation_steps을 32로 설정하여
batch size 768의 효과를 얻을 수 있게 하였습니다.

[ensemble]
모델의 성능을 높이고자, GroupKFold를 활용하여 hard voting ensemble을 적용하였습니다.
GroupKFold의 group에 image_id를 할당하였습니다.
아래 코드는 GroupKFold 코드입니다.

Code