이미지 기반 질의 응답 AI 경진대회 월간 데이콘

알고리즘 | 멀티모달 | 언어 | 비전 | 이미지 기반 질의 응답 | Accuracy

상금 : 인증서
655명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[Public 3rd, Private 2nd] LLaVA

뱅극

공동작성자

2023.08.10 21:19 3,523 조회 language

안녕하세요.

저희 팀은 Multimodal Learning 관련 대회를 처음 참가하게 되어 부족한 것이 많았지만 계속 배워가며 대회에 참여하였습니다.

Baseline model를 이해한 후, 여러 모델들을 적용해 보았습니다.
ViT+GPT2, ViTPatch32+VisaulBERT, EfficientNet+VisualBERT 등 여러 모델들을 시도해보았으나 Public score가 0.5 정도에서 머물렀습니다.

그래서 다른 모델을 적용해보기로 하였고 CVPR에서 2023년에 소개된 LLaVA 모델을 적용해보고자 하였습니다.
모델 구현하기가 쉽지 않아 시간이 오래걸렸으나, 대회 마감 이틀 전에 모델 구현을 하여 운좋게 대회를 마무리 하게되었습니다.

자세한 코드는 깃허브를 참고해주세요.
https://github.com/geuk-hub/-Dacon-Multimodal-vqa

LLaVA 모델 구현은 https://llava-vl.github.io 를 참고하였습니다.

이번 대회를 통해 부족한 점을 알게되고 많은 것을 배워가게 되어 팀원들에게 감사드리고
최근에 멀티모달 관련하여 관심이 있었는데 이렇게 대회를 열어준 Dacon에게도 감사드립니다!