工程实践筛选 · 2026-06-19 上午 · Jay
本次主题
LLM Inference Serving 系统工程:调度算法 / Kernel 自动生成 / 推理引擎实测对比
检索范围
- arXiv (LLM Serving, Scheduling, KV Cache, Optimization)
- Engineering at Meta Blog
- Spheron Network (H100 实测 benchmark)
- vLLM Blog (vllm.ai/blog)
- GitHub Trending (vLLM, SGLang, ContextPilot, Step-3.7-Flash)
高价值条目
✅ 保留 1:arXiv — LLM Serving 算法根基批判性论文
- 标题:Position: LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics
- 来源:arXiv 2605.01280v1 | ICML 投稿
- 时间:2026 (abs date)
- 核心观点:
- 当前 vLLM / SGLang 的算法核心沿用经典分布式系统启发式方法:路由用 JSQ / Round-Robin,调度用 FIFO,KV Cache 驱逐用 LRU
- 这些通用策略忽略了 LLM 推理的独特结构:prefill-decode 相位不对称、KV cache 动态增长、输出长度未知、continuous batching 耦合
- 提出:LLM serving 需要建立正式数学模型,为调度、路由、cache 管理、负载均衡、容量规划提供可证明的性能保证
- 具体问题:MoE Expert Routing 是约束分配问题(而非辅助 loss 问题);Prefill-Decode 解聚下 decode worker 调度是动态规划问题;KV Cache 驱逐应建模为在线优化问题
- 引用了 WAIT 算法、Nested WAIT 等有理论保证的在线调度算法作为方向
- 可信度:高 — arXiv 学术论文,有正式定理证明,初步评估逻辑严谨
- 工程价值:⭐⭐⭐⭐⭐ — 系统性指出当前工程实践的算法天花板,开辟形式化优化研究方向
- 是否需精读:是,值得建立专项阅读笔记;可考虑纳入"LLM Serving 调度算法"主题页
- 链接:
https://arxiv.org/html/2605.01280v1 - 评价:这是目前看到的最有深度的 LLM Serving 立场论文,将 ML Systems 社区对"调参+benchmark"的工程路线与运筹学/算法社区的"形式化建模"路线做了一次正面碰撞。核心主张:heuristics 在 adverserial workload 下会不可预测地失败,而有理论保证的算法即使保守也有最坏情况保证。
✅ 保留 2:Meta Engineering — KernelEvolve:Agentic Kernel Authoring System
- 标题:KernelEvolve: How Meta's Ranking Engineer Agent Optimizes AI Infrastructure
- 来源:Engineering at Meta | 2026-04-02
- 作者:Meta Ranking Engineer Agent 团队
- 核心内容:
- 问题规模:Meta 异构硬件 × 模型架构 × 算子类型 = 数以千计的 kernel 配置,无法靠专家手动调优
- 硬件异构:NVIDIA GPU + AMD GPU + Meta 自研 MTIA (Gen 1-4) + CPU,每代芯片需不同 kernel;MTIA 两年内四个芯片代际
- 模型演进:Embedding-based DRM → Sequence Learning (Attention) → GEM (Generative Ads Model) → Meta Adaptive Ranking Model (LLM-scale)
- KernelEvolve 方案:
- 将 kernel 优化建模为搜索问题(而非 one-shot 生成)
- LLM + job harness 评估候选 kernel,反馈诊断给 LLM,驱动数百种替代实现的连续搜索
- RAG 知识库注入平台特定文档(架构手册、指令集、优化模式),无需预训练目标硬件
- 树搜索探索算子实现替代方案,成功优化跨模型家族复用
- 实测结果:
- Andromeda Ads 模型推理吞吐提升 60%+(NVIDIA GPU)
- Ads 模型训练吞吐提升 25%+(MTIA 硅)
- 原本专家需要数周的优化工作,压缩到小时级自动搜索
- 目标硬件:NVIDIA GPU、AMD GPU、MTIA (Gen 1-4)、CPU
- 生成语言:Triton、Cute DSL、FlyDSL、CUDA、HIP、MTIA C++
- 发表:ISCA 2026(
arXiv:2512.23236) - 可信度:高 — Meta Engineering 官方博客,有具体性能数字和硬件代际
- 工程价值:⭐⭐⭐⭐⭐ — 展示 AI-native kernel 工程化路径,有工程规模数据,有方案架构图
- 是否需精读:是,重点提取:(1) agentic kernel search 的 prompt/harness 设计;(2) RAG knowledge base 构建方法;(3) 跨硬件泛化策略
- 链接:
https://engineering.fb.com/2026/04/02/developer-tools/kernelevolve-how-metas-ranking-engineer-agent-optimizes-ai-infrastructure - 评价:Meta 将 Agent 思想用于底层硬件 kernel 优化的首个公开工程细节。与"swe-agent"做代码修改不同,KernelEvolve 直接作用于 GPU 指令生成,且需处理真实硬件的数值精度和 memory hierarchy 问题。60% 的提升说明自动搜索已能在特定领域超越专家直觉。
✅ 保留 3:Spheron — vLLM vs TensorRT-LLM vs SGLang H100 实测对比
- 标题:vLLM vs TensorRT-LLM vs SGLang: H100 Benchmarks (2026)
- 来源:Spheron Network Blog
- 时间:2026 年 6 月(近期)
- 实测环境:
- 硬件:H100 SXM5 80GB,单卡,裸金属
- 模型:Llama 3.3 70B Instruct,FP8,Driver 590.48.01
- Framework:vLLM v0.18.0 / TensorRT-LLM v1.2.0 / SGLang v0.5.9
- 基准方法:200 prompts,avg input 512 tokens / output 256 tokens,concurrency 1/10/50/100,3 分钟稳态测量
- 关键数据:
| 并发数 | vLLM 吞吐 | TRT-LLM 吞吐 | SGLang 吞吐 |
|---|---|---|---|
| 1 req | 120 tok/s | 130 tok/s | 125 tok/s |
| 10 req | 650 tok/s | 710 tok/s | 680 tok/s |
| 50 req | 1,850 tok/s | 2,100 tok/s | 1,920 tok/s |
| 100 req | 2,400 tok/s | 2,780 tok/s | 2,460 tok/s |
| 并发数 | vLLM p95 TTFT | TRT-LLM p95 TTFT | SGLang p95 TTFT |
|---|---|---|---|
| 1 req | 68 ms | 55 ms | 61 ms |
| 10 req | 195 ms | 170 ms | 178 ms |
| 50 req | 720 ms | 620 ms | 680 ms |
| 100 req | 1,450 ms | 1,280 ms | 1,380 ms |
| 引擎 | 冷启动时间 | 峰值显存 (50 req) |
|---|---|---|
| vLLM | ~62 sec | 76 GB |
| TRT-LLM | ~28 min | 77 GB |
| SGLang | ~58 sec | 75 GB |
- 冷启动注意:TRT-LLM 编译 28 分钟是单次成本;编译后 reload 约 90 秒;新 PyTorch 后端(v1.0 stable)可直接加载 HF weights,冷启动降至 ~60-90 秒
- FP8 部署命令:
--quantization fp8(vLLM/SGLang)/--qformat fp8in quantize.py(TRT-LLM) - vLLM 新特性:v0.18.0 移除 Ray 默认依赖;
--performance-mode throughput预调优;MRV2(Model Runner V2)在 GB200 上吞吐量提升 56%,H100 效果待测 - SGLang 新特性:TRT-LLM DSA (DeepSeek Sparse Attention) 内核通过
--nsa-prefill-backend trtllm --nsa-decode-backend trtllm在 Blackwell 上 3x-5x 加速;新支持 Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5 - 可信度:中 — Spheron 是商业云平台,测试方法论描述完整(随机种子、预热期、nvidia-smi 采样),但未开放原始数据
- 工程价值:⭐⭐⭐⭐ — 2026 年最新 H100 三引擎对比,含具体 benchmark 命令和配置参数,可直接用于工程选型
- 是否需精读:否,但建议纳入"推理引擎选型"快速参考表
- 链接:
https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks - 评价:目前最详细的 2026 年 H100 三引擎实测。关键 insight:(1) TRT-LLM 编译换吞吐,非紧急弹性场景慎用;(2) SGLang 在 shared-prefix 场景(chatbot/RAG)有额外优势;(3) vLLM 冷启动 + 生态宽度仍是最优通用选择。
✅ 保留 4:GitHub — SGLang v0.5.13 (2026-06-13)
- 来源:
github.com/sgl-project/sglang - 信息:最新 release v0.5.13(2026-06-13),29.1k stars,6.6k forks,1,609 contributors
- 工程价值:⭐⭐⭐ — 活跃度高,支持 Qwen3.5/Kimi-K2.5/GLM-5/MiniMax 2.5,支持 DeepSeek V3.2 NSA(Native Sparse Attention)+ TRT-LLM 后端
- 备注:可补充到已有 SGLang 相关笔记
✅ 保留 5:GitHub — ContextPilot (EfficientContext)
- 来源:
github.com/EfficientContext/ContextPilot - 核心功能:长上下文推理加速 via context reuse,支持 OpenClaw/hermes-agent/vLLM/SGLang/llama.cpp 插件式集成
- 新增:2026-05 支持 Hermes Agent 作为 native context engine plugin;2026-03 支持云 API(OpenAI/Anthropic/MiniMax)cache sync;2026-03 支持 macOS/Apple Silicon via llama.cpp
- 工程价值:⭐⭐⭐ — 多引擎 context caching 方案,对 agentic 系统有直接价值
- 链接:
https://github.com/EfficientContext/ContextPilot
丢弃条目
| 条目 | 丢弃理由 |
|---|---|
| "Best LLM Inference Engines 2026: vLLM vs SGLang vs TGI vs llama.cpp" (deploybase.ai) | 与 Spheron 同期内容,数字相近但方法论描述不如 Spheron 详细;覆盖 TGI/llama.cpp 是加分但非本次重点 |
| "LLM Inference Optimization: A Practical Guide for AI Engineers" (jobsbyculture.com) | 通用科普向,包含 KV cache/quantization/spd 等基础概念;无原创数据,无真实 benchmark,无代码/命令 |
| "Open-source LLM inference engines compared: SGLang, vLLM, MAX, and BentoML" (LinkedIn/Modular) | LinkedIn 帖子,无技术深度;主要是 Modular MAX 推广 |
| "AI Inference Engines: vLLM vs LMDeploy vs SGLang" (aimultiple.com) | 2026 年内容但 H100 8B 模型偏小,且 29% 差距数字来自"架构差距"推算而非可控实验 |
| "ai-hpc/ai-hardware-engineer-roadmap" GitHub | 课程路线图性质,无具体工程内容 |
| 各 Substack 课程推广帖 (jamwithai, reactjava, javarevisited) | 课程营销内容,无工程细节 |
分类标签
LLM-Serving Scheduling-Algorithms Kernel-Optimization Meta vLLM SGLang TensorRT-LLM H100 Benchmark ISCA2026 Agentic-Systems
建议写入路径
/shared/research-kb/inbox/jay/2026-06-19-1050-engineering-filter-kerneleev-inference-scheduling.md
后续行动建议
- 精读:arXiv 2605.01280(LLM Serving 算法立场论文)+ KernelEvolve ISCA 论文(arXiv:2512.23236)
- 主题页更新:建议在知识库建立"LLM Serving 调度算法"主题页,整合 WAIT/Nested WAIT 论文与本次保留条目 1
- Benchmark 库:Spheron 实测数据(条目 3)可纳入"推理引擎选型"快速参考
- 交叉验证:KernelEvolve 的 60% 提升来自特定 Ads 模型,需核实其在其他模型(如 LLM)上的泛化性;TRT-LLM 编译 28 分钟数字来自 Spheron single-GPU 测试,多卡场景未覆盖