이미지 기반 질의 응답 AI 경진대회 월간 데이콘

알고리즘 | 멀티모달 | 언어 | 비전 | 이미지 기반 질의 응답 | Accuracy

 

(public 0.47928) 모델, 코드 공유

2023.07.14 16:48 2,896 조회 language

코드가 많아서 깃에 올리겠습니다.
https://github.com/ddobokki/dacon_vqa

사용한 모델은 https://huggingface.co/microsoft/git-base-coco 로 확인한 바에 따르면 vqa는 학습하지 않은 프리트레인 모델(git-base)에 coco 데이터셋을 파인튜닝한 모델입니다.(vqa 미사용, 혹시 실수가 있었을 경우 알려주시면 조취를 취하겠습니다.)

저의 경우는 학습을 3000스텝만 돌리고 중간에 끊고 인퍼런스를 했습니다. 

도움이 되면 좋겠습니다.

포함한 주피터는 인퍼런스 코드 입니다.

코드
로그인이 필요합니다
0 / 1000
비회원
2023.07.14 17:03

이미지 데이터는 활용하지 않고 QA Task로만 수행하신 건가요?

청소
2023.07.14 17:04

이미지까지 들어가는 멀티모달 입니다.

김시후
2023.07.16 20:57

혹시 train 코드는 https://github.com/microsoft/GenerativeImage2Text에서 참고하고 작성하신건가요??

청소
2023.07.17 01:20

참고하진 않았고, transformers의 기본적인 학습 템플릿입니다.

flyinghooniman
2023.07.20 15:47

좋은 코드 감사합니다.
기본적인 질문이지만 한 epoch를 도는데 있어서 몇 step을 수행하면 끝나는지 궁금합니다..!

청소
2023.07.21 11:12

shell script의 batch size를 조절하는 부분이 있습니다. 이 설정에 따라 에폭에 따라 몇 스텝 돌지 달라지기 때문에 답변 드리기 힘들 것 같습니다 ㅠ
제 디폴트 설정으로는 몇 번 돌아야 하는지 기억이 나질 않네요 ㅠ

flyinghooniman
2023.07.21 14:39

아 넵 답변 감사합니다.

Jaai
2023.07.24 11:36

좋은 코드 감사합니다! 뭔가 쿠다활용하는건 이번이 처음이라 어떻게 하면 좋을지 고민하고 있었는데 가이드라인을 잘 잡아주신 것 같아요!
어떻게 해야할지 지금도 많이 고민중이고 머리를 싸매고 있긴 합니다만ㅎㅎㅎㅎ 
좋은 코드로 잘 공부해갑니다! 감사합니다:)