2026 SKKU Multimodal AI Bias Challenge

Algorithm | Multimodal | LLM | Vision | Generated AI | Bias | QA | Accuracy

7,200,000 KRW
206 Users D-25 to Close

Join

Overview Data Code (share) newIcon

Talk

Leaderboard

Team

Submission

[Baseline] LLaVA-OneVision 기반 멀티모달 QA 추론

DACON.GM

2026.05.27 16:34 598 Views language

안녕하세요. 데이콘입니다.

본 게시글에서는 이미지, context, question, answers를 입력으로 받아 정답 선택지 번호를 예측하는 베이스라인 코드를 제공합니다.
본 베이스라인은 llava-hf/llava-onevision-qwen2-0.5b-si-hf 모델과 vLLM을 활용하여 추론을 수행하며, 최종 제출 파일은 sample_id,label 형식의 output/baseline_submission.csv로 저장됩니다.

필요시 더 큰 크기의 LLaVA-OneVision 계열 모델로 교체하여 실험해볼 수 있습니다.
다만, 본 대회의 추론 시간 및 리소스 제한 사항을 반드시 확인하고, 해당 제한을 준수하는 범위 내에서 진행해주시기 바랍니다.

데이콘 베이스라인은 모든 참가자의 원활한 제출을 돕기 위한 예시 코드입니다.
참가자 여러분께서는 본 코드를 자유롭게 참고하여 모델, 전처리, 추론 전략 등을 개선해나갈 수 있습니다.

감사합니다.
데이콘 드림

Code