거대 모델의 성능 저하 없이 크기를 줄이는 방법 : 2025 Samsung AI Challenge

학습 및 가중치 수정에 관한 질문

2025.08.21 19:21 408 조회

대회 규칙의 3) 모델 학습 및 임의 가중치 수정 불가에 대한 질문입니다.

  1. pruning이나 merging을 위한 추가적 파라미터를 도입하는 것은 원천적으로 불가한가요? 혹은 추가적 파라미터를 도입은 가능하되, gradient를 활용한 학습을 한 것만 아니라면 도입 가능한가요?
  2. 가중치 수정에 대한 범위가 어디까지인지가 명확하지 않은 것 같습니다.

예를 들어, merging을 하면 애초에 weight의 변화가 일어나게 됩니다. 이것이 가중치 수정 불가 조항에 저촉되는 행위는 아닌 건가요?

범위를 정확히 한정해주시면 좋을 것 같습니다.

3. activate할 전문가 개수를 수정하면, 결국 concat이후 차원이 안 맞아 차원을 맞추기 위한 파라미터를 도입하거나 weight를 수정해야 합니다. 이것 역시 도입이 불가능한가요?

로그인이 필요합니다
0 / 1000
DACON.PSH
2025.08.28 09:02

안녕하세요. 문의주신 질문에 대한 답변입니다. 
1. pruning/merging 과정에서 병합 비율 등을 조절하기 위해 별도의 파라미터를 도입하는 것은 허용됩니다. 다만, 원칙적으로 금지되는 행위는 (i) 다른 학습된 모델의 가중치를 가져오는 것, (ii) 데이터를 사용하여 학습하는 것입니다. 이는 데이터의 품질 차이에 따른 성능 향상이 대회의 본질과 무관하기 때문입니다.
2. 1번에서 말씀 드린 것처럼 허용되지 않는 것은 (i) 외부 학습된 모델의 가중치 반입, (ii) 데이터 기반 학습을 통한 가중치 수정입니다.
3. Qwen3 MoE 구조상, router의 Linear Layer에서 나온 logits을 통해 top-k 전문가가 선택되고, 선택된 전문가들의 출력을 합산하는 방식이므로 출력 차원이 항상 보존됩니다. 따라서 활성화 전문가 개수를 조정함으로써 차원 불일치 문제가 생기지는 않습니다. 
다만, pruning 과정에서 expert 개수를 줄이는 경우, gate Linear Layer(=router)를 수정해야 하는 상황이 발생할 수 있으며, 이는 허용됩니다.
즉, model merging 및 pruning 알고리즘에 따른 가중치 수정 및 도입은 가능하다고 이해해주시면 됩니다.