本地模型推理（二）：五个开源模型的本地部署方案

vllm serve zai-org/GLM-5.1-FP8 \
  --tensor-parallel-size 8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --enable-auto-tool-choice \
  --served-model-name glm-5.1-fp8

SGLang 官方仓库里的示例也是同一个思路：

SGLANG_ENABLE_SPEC_V2=1 sglang serve \
  --model-path zai-org/GLM-5.1-FP8 \
  --tp-size 8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --served-model-name glm-5.1-fp8

硬件判断

vLLM 官方 recipe 写明的示例硬件是 8x H200 / H20，141GB x 8
BF16 权重按参数量估算大约在 1.5TB 级别
就算换成 FP8，权重本体也还是 700GB+ 级别

2. Gemma 4 31B

模型情况

官方文档：Gemma docs
模型卡：Gemma 4 model card
权重页：google/gemma-4-31B
规格：30.7B dense，支持图文输入，256K context

Gemma 4 系列有 dense 和 MoE 两条线，31B 这颗是 dense，因此它的部署判断反而简单很多。

官方/主流本地后端

Gemma 4 的生态最完整的一档：

Transformers
vLLM
SGLang
llama.cpp
Ollama
MLX

Google 官方文档里明确说可以直接用最新版 Transformers 起步，社区生态又很快把 GGUF、Ollama、MLX 都补齐了。

最简单的本地起步

官方文档给的 Transformers 写法很直接：

from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-31B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

想直接变成 OpenAI 兼容服务，则使用 vLLM / SGLang；

硬件情况

Gemma 官方文档给出了推理内存参考：

精度	大致内存需求
BF16	`58.3 GB`
8-bit	`30.4 GB`
4-bit	`17.4 GB`

本地落地范围：

4-bit：单张 24GB 显卡、32GB 以上统一内存的 Mac、或者 16GB VRAM + RAM offload 都有机会
8-bit：更适合 48GB 级别显卡 / 64GB+ 统一内存
BF16：更像 80GB 级别卡或双卡环境