AI Co-Scientist : 2025 Samsung AI Challenge

모델 크기 관련 문의입니다.

2025.08.04 22:03 543 Views

안녕하세요, 제출 파이프라인의 모델 파라미터 기준 관련하여 명확한 정의가 필요하여 질문드립니다.


현재 과제 구조

이번 과제는 MCP (Multi-Component Pipeline)A2A (Agent-to-Agent) 구조로 설계되어 있으며, 입력 유형에 따라 라우팅되어 서로 다른 모델 경로가 선택적으로 활성화되는 형태입니다.


예시 구조

  • RAG 기반 QA task
  • 임베딩 모델: 2B
  • LLM (예: Qwen3-32B): 32B
  • → 총 34B 사용 (1질문당 sequential inference)
  • 코딩 task
  • LLM 단일 모델 사용: 32B
  • 분류 task
  • Lightweight classifier 사용: 1B

→ 이처럼 각 task는 서로 다른 모델 경로를 사용하며, 모든 모델이 동시에 로드/사용되는 것이 아닙니다. 실제로는 입력에 따라 일부 모델만 활성화되는 구조입니다.


질의 요지

이런 구조에서 "총 파라미터 수"를 다음 중 어떤 기준으로 계산해야 하는지 명확한 지침이 필요합니다:

  1. 전체 파이프라인에 포함된 모든 모델의 파라미터 총합인가요?
  2. 아니면 입력 1건 처리 시 가장 무거운 경로의 파라미터 수 (e.g. max 34B)만을 기준으로 하나요?
  3. 과거 대회에서는 "3B 모델을 2번 호출하면 6B"로 간주한 전례가 있는데, 이번처럼 MCP/A2A가 전제된 구조에서도 동일하게 판단되나요?

추가 질의: 자원 효율성과 평가 기준 관련

최근 LLM 활용에서 일반화된 양자화(quantization) 기법이 파라미터 수 기준과 충돌되는 사례가 있습니다:

예시:

  • 32B 모델을 4bit로 양자화:
  • 파라미터 수: 32B
  • VRAM 사용량: 8–10GB
  • 성능: 8B full-precision 모델과 유사
  • 반면 8B 모델을 full-precision(32bit)로 사용 시:
  • 파라미터 수: 8B
  • VRAM 사용량: 10–12GB
  • 성능: 유사하거나 더 낮음

→ 실제 자원 사용량(VRAM)이나 효율은 유사함에도 불구하고, 단순 파라미터 수 기준만 적용하면 전자가 불이익을 받게 됩니다.


제안 및 요청

  • 단순 파라미터 수 기준은 양자화, LoRA, offloading, routing 기반 구조 등 실질적 효율화 전략과 괴리가 있습니다.
  • 가능한 경우 다음과 같은 방식으로 평가 기준 보완을 검토해주시면 감사하겠습니다:
  • VRAM peak 기준 측정 (e.g., torch.cuda.max_memory_allocated() 활용)
  • 파라미터 수 × precision 비트 수 기반의 보정된 기준 (예: 32B @ 4bit = 4B 기준으로 환산)


Login Required
0 / 1000
DACON.SooWoong
2025.08.05 17:27

안녕하세요, mutoy님.
좋은 의견 주셔서 감사드립니다. 해당 내용은 주최측과 논의 후 안내드리도록 하겠습니다.
감사합니다.