Aimers 8th : Model Compression Online Hackathon

LG Aimers | Recruit | Algorithm | LLM | Code Submit | Compression

  • moneyIcon 본선 진출
  • 1,538 Users Completed
Closed

 

오프라인 해커톤(Phase 3)을 위한 vLLM 커스터마이징 개념 및 사전 안내

2026.02.23 16:15 910 Views

안녕하세요. Aimers 8기 온라인 해커톤(Phase 2) 참가자 여러분,

데이콘입니다.


오프라인 해커톤(Phase 3) 대비를 위해 vLLM 커스터마이징과 관련된 내용을 사전 안내드립니다.


온라인 해커톤(Phase 2)에서는 vLLM 라이브러리 수정이 허용되지 않으며, 참가자는 Hugging Face(HF) 표준 형식으로 저장된 모델 가중치 및 설정 파일만 제출할 수 있었습니다.

그러나 오프라인 해커톤(Phase 3)에서는 모델 가중치 경량화에 더해, 기존 vLLM에서 기본적으로 지원되지 않는 최신 경량화·가속 기법을 적용하기 위한 vLLM 커스터마이징도 가능하게 됩니다.


즉, 오프라인 해커톤(Phase 3)에서는

(1) HF 형식의 경량화된 모델 파일과 함께

(2) 참가자가 수정·확장한 vLLM 라이브러리 폴더를 함께 제출할 수 있습니다.


평가 스크립트 실행 방식은 온라인 해커톤(Phase 2)와 동일한 스크립트 내 vLLM 호출 구조를 유지하며, vLLM의 내부 구현만 참가자가 확장하는 형태로 진행됩니다.


(참고) Phase 3 준비를 위한 간단 가이드

✔️ vLLM이란?

vLLM은 LLM 추론(inference)을 빠르고 효율적으로 수행하기 위한 오픈소스 추론 엔진으로,

모델 로딩, KV cache 관리, 디코딩 및 스케줄링 등 추론 실행 전반을 담당합니다.


✔️ 왜 vLLM 커스터마이징이 필요한가?

최근 경량화·가속 연구는 단순 weight-only 양자화를 넘어,

기존 vLLM에서 바로 지원되지 않는 다양한 최신 기법을 포함하고 있습니다.

이러한 기법은 모델 가중치와 설정 파일만으로 구현하기 어려운 경우가 많아,

vLLM 내부의 설정 파싱, 레이어 적용, 실행 경로를 직접 수정하여 구현해야 할 수 있습니다.


✔️ 어디부터 보면 좋을까? (추천 접근 순서)

1) HF config.json에서 quant_config 및 관련 설정 확인 [참고]

- 경량화가 적용된 모델은 보통 config.json에 관련 설정을 포함합니다.

- 우선 어떤 경량화 기법이 적용되었는지를 config.json에서 확인하는 것이 출발점입니다.


2) vLLM에서 해당 설정이 로딩되고 적용되는 흐름 추적 [참고]

- vLLM은 HF 설정을 읽어 내부 설정 객체로 변환한 뒤 레이어/모듈에 전달합니다.

- 아래 키워드로 코드 진입점을 찾으면 구조 파악이 수월합니다.

quant_config / quantization / QuantConfig / AWQ / GPTQ


3) 단계별 적용 지점 확인

- 설정 파싱 → 내부 객체 생성 → 레이어 전달 → 실제 연산 적용 경로 확인

- 가중치 로딩 방식, 정밀도 처리(FP16/BF16), 연산 루틴 선택 등을 중심으로 살펴보면 도움이 됩니다.


위 흐름을 따라가면, 새로운 경량화 기법을 어느 지점에 구현해야 하는지 빠르게 파악할 수 있습니다.


감사합니다.

데이콘 드림