知识库草稿:vLLM/SGLang 工程对比 · 量化基准 · MoE 路由与负载均衡 · 2026-06-11 晚
实例: Jay | 日期: 2026-06-11 晚 | 检索范围: Substack(The AI Engineer / Cameron R. Wolfe)、TechSy.io、Particula.tech、Spheron、Runpod、Springer's Journal of Ambient Intelligence、arXiv、Introl、LinkedIn 工程经验贴
一、筛选结论
| 条目 | 保留理由 | 丢弃理由 | 可操作性 |
|---|---|---|---|
| vLLM vs SGLang 工程对比(TechSy/Particula/Spheron/Runpod) | 含真实 H100 基准数字、RadixAttention 原理、GPU 内存占用差异(7GB vs 21GB)、TTFT/p95 数据 | — | 高:可直接指导引擎选型 |
| The AI Engineer: vLLM vs Ollama vs SGLang vs TRT-LLM | Substack 工程决策指南,含 FastAPI OOM 真实案例 | 属综述,质量略低于专项深度对比文章 | 中 |
| The AI Engineer: GPTQ vs AWQ vs GGUF 量化实战 | 含 JARVIS Labs Jan 2026 H200 基准数字(Qwen2.5-32B),跨格式 perplexity/throughput 对比表格 | Substack 免费部分信息有限 | 高 |
| Cameron Wolfe Substack: MoE LLMs | DeepSeek-v3 auxiliary-loss-free 路由机制、DBRX 2× 推理加速数据、Fine-grained expert + shared expert 架构细节 | 属研究综述,非纯工程;已有下午 KV cache draft 部分覆盖 | 中(工程价值在负载均衡策略细节) |
| Apple ML: KVP — RL 驱动的 KV 驱逐策略 | RL per-head agent 框架,February 2026,KIT 论文 | 纯研究,无源码/命令/部署步骤 | 低(研究洞察,非工程) |
| Springer: 多层级 KV cache 边缘部署 | 自适应分层驱逐(V0/V1/V2 阈值,U1/U2 利用率),边缘推理场景 | 学术期刊,复现成本高 | 低 |
| KVzip(arXiv 2603.20397) | 自监督上下文重建评估 token 重要性,query-agnostic | 无工程落地数据 | 低(研究方向) |
| SemiAnalysis InferenceMAX | AMD/NVIDIA 基准设置说明,vLLM/SGLang/TRT-LLM 选择逻辑 | Substack 付费墙,snippet 信息有限 | 中(工具价值,引用价值高) |
| LinkedIn: vLLM GPU memory 30%→90%+ | SGLang overlap scheduler 使 GPU 利用率 78%→98%,prefix-heavy 吞吐量 6× | LinkedIn 帖子,非正式出版 | 中(工程洞察,高参考价值) |
| NextBigTeng Substack: AI Infra Roadmap 2026 | 基础设施创业公司概览(TensorMesh/LMCache/RadixArk/Inferact) | 偏市场,非技术深度 | 低 |
二、保留条目详细记录
条目 1:vLLM vs SGLang 工程对比(含基准数字)
来源: - TechSy.io: vLLM vs SGLang 2026: H100 Benchmarks Inside - Particula.tech: SGLang vs vLLM in 2026: Benchmarks, Architecture, and When to Use Each - Spheron: SGLang Production Deployment Guide: RadixAttention and Multi-Turn Inference on GPU Cloud (2026) - Runpod: When to Choose SGLang Over vLLM: Multi-Turn Conversations and KV Cache Reuse
核心工程数据:
| 指标 | vLLM(PagedAttention) | SGLang(RadixAttention) | 备注 |
|---|---|---|---|
| Llama 3.1 8B 吞吐量(H100) | ~12,500 tok/s | ~16,200 tok/s | SGLang 快 29% |
| 70B+ 模型吞吐量 | 差异 3-5% | 同左 | 基本持平 |
| TTFT p95 尾延迟 | 基准 | 低 5-8% | SGLang 稳定 |
| 前缀缓存命中率(多轮) | 块级哈希,需一致边界 | Token 级 Radix 树,自动发现复用 | SGLang 明显优 |
| 共享前缀工作负载(80% 重叠) | 基准 | 最高 6.4× 吞吐量 | SGLang 显著优势 |
| GPU 内存占用(7B 模型) | ~21GB(默认 gpu_memory_utilization=0.9) | ~7GB(按需分配) | SGLang 更节省 |
| 独特 prompt 场景 | 持平或略优 | 略低 | 无缓存优势时 vLLM |
| 内存管理策略 | 预分配 max batch size | 按需分配(lazy allocation) | — |
RadixAttention 原理(Spheron 文档): - SGLang 将 KV cache 保留在 LRU radix 树中,不在请求完成后丢弃 - 新请求到达时遍历树寻找最长匹配前缀,从缓存位置继续计算 - 调度器改为 cache-aware:优先处理长共享前缀请求(近似深度优先),最大化缓存命中 - 实测:200 prompt,10 并发,80% 共享前缀,缓存命中率 ~78%
SGLang 内存节省根因(GitHub Discussion #17221):
vLLM 默认 gpu_memory_utilization=0.9(预分配 90% VRAM)
SGLang 默认更保守,按需分配
→ 7GB vs 21GB 差异主要来自此处
调低 vLLM 内存占用:
vllm serve qwen2.5-7b \
--gpu-memory-utilization 0.3 \
--max-model-len 2048 \
--max-num-seqs 8
Runpod 实测(DeepSeek-R1-Distill-Llama-70B,2×H100 SXM): | 测试类型 | 时长 | Prompt Tokens | Speed (tok/s) | |---------|------|--------------|--------------| | 7k context, fresh | 5.093s | 6,835 | 29.5 | | 7k context, cache hit | 4.287s | 6,829 | 35.0 | | 7k context, cache hit 2 | 4.295s | 6,824 | 34.9 | | Small context | 4.154s | 72 | 36.1 |
→ 7k prompt 缓存命中提速约 20%,小 prompt 无 context 开销时 ~36 tok/s
LinkedIn 工程经验(SGLang overlap scheduler): - overlap scheduler 在 GPU 运行当前 batch 时,在 CPU 上准备下一 batch - 实测 GPU 利用率:78% → 98% - prefix-heavy 工作负载:SGLang 吞吐量最高达 vLLM 的 6× - 无前缀重叠时差距缩小至 10-20%
SGLang 适用场景: - 多轮对话(5+ turns,平均 5K token context) - Agent 工具调用(重复 system prompt + tool schema) - RAG 共享文档引用 - Few-shot learning(共享示例 prompt) - Multi-LoRA batching(原生支持)
vLLM 适用场景: - 独特 prompt 工作负载(无前缀重叠) - 高并发批处理 - 需要 AMD/Intel/TPU 等多硬件支持 - 更成熟的 K8s/Helm 生态
可信度: 高。综合 TechSy/Particula/Spheron/Runpod 四来源,数字基本吻合;GitHub Discussion 提供了根因解释。
后续行动: 可写入知识库「Inference Serving 引擎选型」页面,作为 2026 H100 生产部署参考;建议对照 SemiAnalysis InferenceMAX(付费)交叉验证。
条目 2:The AI Engineer — GPTQ vs AWQ vs GGUF 量化实战基准
来源: The AI Engineer Substack(Paolo Perrone),JARVIS Labs January 2026 Benchmark on H200
JARVIS Labs Jan 2026 基准(Qwen2.5-32B-Instruct,vLLM,单卡 H200):
| 格式 | Perplexity(Wikitext-2) | 代码(HumanEval Pass@1) | Throughput(10 并发用户) | vLLM Marlin 速度 |
|---|---|---|---|---|
| FP16 | 基准 | 基准 | 基准 | — |
| AWQ | 6.84 | 51.8% | ~741 tok/s | 741 tok/s, 12.6ms inter-token |
| GGUF Q4_K_M | — | — | ~300-400 tok/s(预估) | 非 NVIDIA 专用 |
| GPTQ | — | — | ~500-600 tok/s(预估) | 可切换 Marlin 内核追评 AWQ |
| bitsandbytes NF4 | 6.67(最低 perplexity) | 51.8% | ~168 tok/s | vLLM 支持有限 |
AWQ 结论(The AI Engineer):
- vLLM on NVIDIA GPU → 用 AWQ(Marlin 内核,速度质量比最优)
- Mac/laptop/CPU → 用 GGUF Q4_K_M(唯一有非 NVIDIA 内核的格式)
- 已部署 GPTQ → 切换 Marlin 内核即可获得 AWQ 速度,无需重新量化
bitsandbytes NF4: - Perplexity 最低(6.67),精度最高 - 但 vLLM 吞吐量仅 168 tok/s(AWQ 的 22%) - 8-bit bitsandbytes 在 vLLM 中尚不支持 - 适合原型开发和 QLoRA 微调(在线量化,无需离线预处理)
可信度: 中高。JARVIS Labs 基准数字有出处,Substack 作者 Paolo Perrone 信誉较好,但需自行验证完整数字表。
后续行动: 建议写入「LLM 量化选型」页面,引用 JARVIS Labs 2026-01 原始链接。
条目 3:Cameron R. Wolfe Substack — MoE LLMs 工程细节
来源: Cameron R. Wolfe, Ph.D. Substack,Mixture-of-Experts (MoE) LLMs
DeepSeek-v2/v3 负载均衡机制(Auxiliary-loss-free):
核心问题:传统 MoE 用辅助损失均衡专家负载,但会损害模型质量。
DeepSeek 方案: - 每个 expert 维护一个偏置项(bias term)b_i - 每 iteration:根据 expert 是否超载/欠载,将 b_i 按固定因子 γ 增减 - 偏置仅在 Top-K 选择时使用,不影响 router 中 expert probability 的计算 - 效果:有效均衡专家利用率,同时不引入性能损失 - DeepSeek-v3 仍使用极低权重的辅助损失(作为稳定训练保险)
DBRX 推理效率数据(Databricks): - DBRX 推理速度:2× LLaMA-2-70B at 150 tok/s/user(TensorRT-LLM, FP16) - DBRX 总参数量仅为 Grok-1 的 40%(active 参数同比例) - MoE 架构使 active 参数远小于 total 参数 → 推理成本接近小模型
Fine-grained Expert + Shared Expert 架构(DeepSeek): - 动机:在大量细粒度专家中促进专业化,同时减少专家间的冗余信息 - 部分 expert 固定为"shared expert"(始终激活),其余为可选择性激活的细粒度 expert
Mixtral 8×7B 实测: - 总参数量 46.7B(8 × 5.6B expert + shared) - 每次 token 激活 2 个 expert → active 参数 ~12.8B - 推理速度等同于 13B 稠密模型
可信度: 高。Cameron Wolfe 为深度学习博士,Substack 技术深度可靠。
后续行动: 补充到「MoE 架构」主题页,重点标注 DeepSeek 辅助损失-free 机制和 DBRX 推理数据。
条目 4:Apple ML — KVP(RL 驱动 KV 驱逐)
来源: Apple ML Research,Learning to Evict from Key-Value Cache,MIT 研究员 Luca Moschella 等,February 2026
核心思想: 将 KV cache 驱逐重新定义为强化学习问题——学习对 token 按"对未来解码的预测有用性"排序。
方法: - KVP:轻量级 per-head RL agent 框架 - 在预计算的生成轨迹上训练(仅使用 key 和 value 向量) - 每个 agent 学习专门的驱逐策略,由未来效用驱动 - 每个 agent 评估单个 KV cache entry 对未来解码的重要性
评估结果(需核实原文): - ICML 2026 论文
工程价值: 低。当前无开源代码/命令/生产部署数据,属研究方向。
三、整体评估
本轮新增工程高价值条目: 1. vLLM vs SGLang H100 基准(含 GPU 内存差异根因)→ 选型必读 2. GPTQ/AWQ/GGUF H200 量化基准(Jarvis Labs Jan 2026)→ 量化选型参考 3. DeepSeek auxiliary-loss-free MoE 路由 + DBRX 推理数据 → MoE 工程参考
与已有草稿重叠检查: - 2026-06-11-kv-cache-inference-systems-eviction-security.md → KV cache 策略已覆盖,本文侧重 benchmark 数字 - 2026-06-11-csdn-rag-sourcecode-mlops-substack.md → Substack 部分无重复 - 2026-06-11-inference-benchmark-engineering.md → 需确认该文是否含本次 SGLang/vLLM 数字(概率低,该文为下午轮)
建议写入路径: /shared/research-kb/inbox/jay/2026-06-11-evening-vllm-sglang-quantization-moe.md
标签: inference-engineering vLLM SGLang quantization MoE benchmark production
精读建议: - ⭐ 精读:TechSy/Particula vLLM vs SGLang 专项(含 GPU 内存 7GB vs 21GB 根因) - ⭐ 精读:The AI Engineer AWQ vs GPTQ vs GGUF(含 Jarvis Labs 2026-01 H200 数字) - 参考:DeepSeek-v3 auxiliary-loss-free 路由( Wolfe Substack) - 参考:LinkedIn GPU 利用率 78%→98% 经验(Overlap Scheduler)