분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Baseline] LLaVA-OneVision 기반 멀티모달 QA 추론
안녕하세요. 데이콘입니다.
본 게시글에서는 이미지, context, question, answers를 입력으로 받아 정답 선택지 번호를 예측하는 베이스라인 코드를 제공합니다.
본 베이스라인은 llava-hf/llava-onevision-qwen2-0.5b-si-hf 모델과 vLLM을 활용하여 추론을 수행하며, 최종 제출 파일은 sample_id,label 형식의 output/baseline_submission.csv로 저장됩니다.
필요시 더 큰 크기의 LLaVA-OneVision 계열 모델로 교체하여 실험해볼 수 있습니다.
다만, 본 대회의 추론 시간 및 리소스 제한 사항을 반드시 확인하고, 해당 제한을 준수하는 범위 내에서 진행해주시기 바랍니다.
데이콘 베이스라인은 모든 참가자의 원활한 제출을 돕기 위한 예시 코드입니다.
참가자 여러분께서는 본 코드를 자유롭게 참고하여 모델, 전처리, 추론 전략 등을 개선해나갈 수 있습니다.
감사합니다.
데이콘 드림
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
Deleted Comment