분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Public 3rd, Private 2nd] LLaVA
안녕하세요.
저희 팀은 Multimodal Learning 관련 대회를 처음 참가하게 되어 부족한 것이 많았지만 계속 배워가며 대회에 참여하였습니다.
Baseline model를 이해한 후, 여러 모델들을 적용해 보았습니다.
ViT+GPT2, ViTPatch32+VisaulBERT, EfficientNet+VisualBERT 등 여러 모델들을 시도해보았으나 Public score가 0.5 정도에서 머물렀습니다.
그래서 다른 모델을 적용해보기로 하였고 CVPR에서 2023년에 소개된 LLaVA 모델을 적용해보고자 하였습니다.
모델 구현하기가 쉽지 않아 시간이 오래걸렸으나, 대회 마감 이틀 전에 모델 구현을 하여 운좋게 대회를 마무리 하게되었습니다.
자세한 코드는 깃허브를 참고해주세요.
https://github.com/geuk-hub/-Dacon-Multimodal-vqa
LLaVA 모델 구현은 https://llava-vl.github.io 를 참고하였습니다.
이번 대회를 통해 부족한 점을 알게되고 많은 것을 배워가게 되어 팀원들에게 감사드리고
최근에 멀티모달 관련하여 관심이 있었는데 이렇게 대회를 열어준 Dacon에게도 감사드립니다!
감사합니다! 수고하셨습니다 :)
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
고생하셨습니다~