이미지 기반 질의 응답 AI 경진대회 월간 데이콘

알고리즘 | 멀티모달 | 언어 | 비전 | 이미지 기반 질의 응답 | Accuracy

상금 : 인증서
621명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

Private 10위, vilt 모델

김태언

2023.08.12 16:47 801 조회 language

vilt 모델로 학습 테스트를 먼저 해보고 beit 3 학습 중이었는 데 늦게 학습을 시작해 beit3 large 모델이 1에포크 밖에 돌지 않아서

최고 점수는 vilt 모델로 나온 점수기 때문에 vilt 성능 테스트할 때의 code 를 공유하겠습니다.

모델은 vilt 깃허브에서 ViLT-B/32 Pretrained with MLM+ITM for 200k steps on GCC+SBU+COCO+VG (ViLT-B/32 200k) 모델을 다운 받아 사용하였고 dacon dataset으로 finetuning 하였습니다.

일단 basecode 로 밑의 url의 code 를 참고하고

https://github.com/NielsRogge/Transformers-Tutorials/blob/master/ViLT/Fine_tuning_ViLT_for_VQA.ipynb

dacon의 데이터셋을 가져와 학습시키는 부분만 변형하였기 때문에

dacondataset class 와 데이터셋 불러오는 부분을 추가하였습니다.

코드