2025 Samsung Collegiate Programming Challenge : AI 챌린지

채용 | SCPC | 알고리즘 | 비전 | LLM | 생성 AI | 멀티모달 | 정확도

참가신청 마감

 

[Baseline] BLIP-2 기반 멀티모달 객관식 응답 추론

2025.06.19 08:50 3,163 조회 language

안녕하세요. 데이콘입니다.

'Salesforce/blip2-opt-2.7b'는 본 대회에서 제공된 공식 베이스라인 모델로, 참가자들이 모델 구조나 입력·출력 양식을 이해하기 위한 참고용 코드로 활용됩니다.
다만, 해당 모델은 전체 파라미터 수 기준으로 약 3.74B로 3B 제한을 초과하기 때문에, 다음과 같은 조건을 적용합니다.
1) 베이스라인 모델 한정하여 리더보드에 제출 가능
2) 그러나 본선 진출을 위한 코드 검증 및 최종 평가 단계에서는, 베이스라인 모델을 그대로 사용한 경우에도 규칙 위반으로 간주됩니다.

참가자는 해당 구조를 기반으로 하더라도 반드시 경량화(예: LLM 교체, 양자화, LoRA, Q-Former 축소 등)를 통해 최종 파라미터 수가 3B 미만이 되도록 조정해야 합니다.
즉, BLIP2-OPT-2.7B는 구조적 참고용으로 제공된 것일 뿐이며, 실제 제출 모델은 반드시 규칙 내(3B 미만)로 최적화·경량화되어야 합니다.

데이콘 베이스라인은 모든 참가자의 '제출'을 목표로 합니다. 
해당 내용에 관한 해설은 아래 링크 참고 부탁드립니다.
https://dacon.io/edu/487

감사합니다. 
데이콘 드림

코드
로그인이 필요합니다
0 / 1000
affjljoo3581
2025.06.19 13:28

Salesforce/blip2-opt-2.7b는 vision encoder까지 합쳐서 3.74B 파라미터인 것 같은데, 3B이 넘어가도 괜찮나요?

DACON.GM
2025.07.03 12:59

좋은 의견주셔서 감사합니다.
Salesforce/blip2-opt-2.7b는 본 대회에서 제공된 공식 베이스라인 모델로, 참가자들이 모델 구조나 입력·출력 양식을 이해하기 위한 참고용 코드로 활용됩니다.
다만, 해당 모델은 전체 파라미터 수 기준으로 약 3.74B로 3B 제한을 초과하기 때문에, 다음과 같은 조건을 적용합니다.
1) 베이스라인 모델 한정하여 리더보드에 제출 가능
2) 그러나 본선 진출을 위한 코드 검증 및 최종 평가 단계에서는, 베이스라인 모델을 그대로 사용한 경우에도 규칙 위반으로 간주됩니다.

참가자는 해당 구조를 기반으로 하더라도 반드시 경량화를 통해 최종 파라미터 수가 3B 미만이 되도록 조정해야 합니다.

즉, BLIP2-OPT-2.7B는 구조적 참고용으로 제공된 것일 뿐이며,
실제 제출 모델은 반드시 규칙 내(3B 미만)로 최적화·경량화되어야 합니다.

affjljoo3581
2025.06.19 16:53

경량화 예시 중에 양자화가 포함되어 있는데, 양자화는 통상적으로 파라미터 수를 줄이지 않는데요. 이 경우에는 해당이 안되는 거겠죠?
이를테면 4bit 양자화로 12B 모델을 3B으로 압축하는 경우가 있겠습니다. 이 경우, layer pruning 등의 실질적인 파라미터 제거 기법과는 엄연히 다르지 않나 싶습니다.

DACON.GM
2025.06.19 17:02

양자화는 파라미터 수를 줄이지 않기 때문에, 3B 미만 제한을 만족하기 위한 직접적인 수단은 아닙니다.
다만, 양자화는 2차 평가 항목 중 ‘최적화’ 측면에서 고려 가능한 옵션으로 언급된 것이며, 참가자는 LLM 축소, 구조 단순화 등 실제 파라미터 수를 줄이는 방법을 포함해 여러 기법을 조합하여 자유롭게 경량화를 시도하실 수 있습니다.

affjljoo3581
2025.06.19 17:16

아하 평가 항목에 최적화도 있었군요 ㅎㅎ 감사합니다~

올치버
2025.07.01 10:33

삭제된 댓글입니다

qquqn
2025.06.20 15:58

2) 그러나 본선 진출을 위한 코드 검증 및 최종 평가 단계에서는, 베이스라인 모델을 그대로 사용한 경우에도 규칙 위반으로 간주됩니다.
-> 그러니까 Salesforce/blip2-opt-2.7b 써도 경량화 등으로 이미지 인코더 포함해서 3B 아래로 만들어야 된다는 거죠? BLIP2만 예외적으로 3B 이상이어도 허용되는 게 아니라

DACON.GM
2025.06.20 16:53

네. 맞습니다.

tungnguyenlam
2025.06.19 15:34

where can i get the evaluation data

테히콘
2025.06.22 17:18

안녕하세요,

'Baseline 해설 및 실습코드 바로가기' -> ' [Baseline] BLIP-2 기반 멀티모달 객관식 응답 추론'에
1. 2025 SCPC: AI 챌린지 베이스라인
2. 2025 SCPC: AI 챌린지 기본학습
3. 2025 SCPC: AI 챌린지 학습평가

이렇게 세단계로 구성이 되어있던데, 2번과 3번은 데이콘 구독권을 끊어야만 학습할 수 있나요?

DACON.PSH
2025.06.23 09:27

안녕하세요. 테히콘님. 
2번(기본학습)과 3번(학습평가)은 데이콘 구독자만 이용할 수 있습니다.
1번(베이스라인)은 코드만 제공되며, 비구독자도 자유롭게 열람 가능합니다.

홈런
2025.06.23 01:48

안녕하세요. 

1번 조건 '베이스라인 모델 한정하여 리더보드에 제출 가능'의 의미가, 리더보드에 blip-2 모델 기반 결과만 제출할 수 있다는 것일까요? 

그럼 '참가자는 해당 구조를 기반으로 하더라도 반드시 경량화(예: LLM 교체, 양자화, LoRA, Q-Former 축소 등)를 통해 최종 파라미터 수가 3B 미만이 되도록 조정해야 합니다.'라는 말에서 LLM 교체는 어떤 맥락으로 쓰인 것일까요?

홈런
2025.06.24 16:08

안녕하세요. 혹시 답변은 언제 받을 수 있을까요?

DACON.GM
2025.06.24 16:15

1. 베이스라인 모델만 리더보드에 제출할 수 있다는 의미가 아닙니다. 해당 문구를 확인해주세요. 
'Salesforce/blip2-opt-2.7b'는 본 대회에서 제공된 공식 베이스라인 모델로, 참가자들이 모델 구조나 입력·출력 양식을 이해하기 위한 참고용 코드로 활용됩니다.
다만, 해당 모델은 전체 파라미터 수 기준으로 약 3.74B로 3B 제한을 초과하기 때문에, 다음과 같은 조건을 적용합니다.
1) 베이스라인 모델 한정하여 리더보드에 제출 가능
2) 그러나 본선 진출을 위한 코드 검증 및 최종 평가 단계에서는, 베이스라인 모델을 그대로 사용한 경우에도 규칙 위반으로 간주됩니다.

2. 단순 예시로 이해해주세요. 참가자는 LLM 축소, 구조 단순화 등 실제 파라미터 수를 줄이는 방법을 포함해 여러 기법을 조합하여 자유롭게 경량화를 시도하실 수 있습니다. 예시들은  2차 평가 항목 중 ‘최적화’ 측면에서도 고려 가능한 옵션으로 언급된 것입니다.

teslah100
2025.06.30 14:06

삭제된 댓글입니다

DACON.GM
2025.06.26 17:58

베이스라인 게시글 내용을 확인해주세요.

이전 글
이전 글이 존재하지 않습니다.
현재 글
[Baseline] BLIP-2 기반 멀티모달 객관식 응답 추론
대회 - 2025 Samsung Collegiate Programming Challenge : AI 챌린지
좋아요 7
조회 3,163
댓글 14
한 달 전
다음 글
다음 글이 존재하지 않습니다.