工程实践筛选 · 2026-06-19 上午 · Jay

本次主题

LLM Inference Serving 系统工程：调度算法 / Kernel 自动生成 / 推理引擎实测对比

检索范围

arXiv (LLM Serving, Scheduling, KV Cache, Optimization)
Engineering at Meta Blog
Spheron Network (H100 实测 benchmark)
vLLM Blog (vllm.ai/blog)
GitHub Trending (vLLM, SGLang, ContextPilot, Step-3.7-Flash)

高价值条目

✅ 保留 1：arXiv — LLM Serving 算法根基批判性论文

标题：Position: LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics
来源：arXiv 2605.01280v1 | ICML 投稿
时间：2026 (abs date)
核心观点：
当前 vLLM / SGLang 的算法核心沿用经典分布式系统启发式方法：路由用 JSQ / Round-Robin，调度用 FIFO，KV Cache 驱逐用 LRU
这些通用策略忽略了 LLM 推理的独特结构：prefill-decode 相位不对称、KV cache 动态增长、输出长度未知、continuous batching 耦合
提出：LLM serving 需要建立正式数学模型，为调度、路由、cache 管理、负载均衡、容量规划提供可证明的性能保证
具体问题：MoE Expert Routing 是约束分配问题（而非辅助 loss 问题）；Prefill-Decode 解聚下 decode worker 调度是动态规划问题；KV Cache 驱逐应建模为在线优化问题
引用了 WAIT 算法、Nested WAIT 等有理论保证的在线调度算法作为方向
可信度：高 — arXiv 学术论文，有正式定理证明，初步评估逻辑严谨
工程价值：⭐⭐⭐⭐⭐ — 系统性指出当前工程实践的算法天花板，开辟形式化优化研究方向
是否需精读：是，值得建立专项阅读笔记；可考虑纳入"LLM Serving 调度算法"主题页
链接：https://arxiv.org/html/2605.01280v1
评价：这是目前看到的最有深度的 LLM Serving 立场论文，将 ML Systems 社区对"调参+benchmark"的工程路线与运筹学/算法社区的"形式化建模"路线做了一次正面碰撞。核心主张：heuristics 在 adverserial workload 下会不可预测地失败，而有理论保证的算法即使保守也有最坏情况保证。

✅ 保留 2：Meta Engineering — KernelEvolve：Agentic Kernel Authoring System

标题：KernelEvolve: How Meta's Ranking Engineer Agent Optimizes AI Infrastructure
来源：Engineering at Meta | 2026-04-02
作者：Meta Ranking Engineer Agent 团队
核心内容：
问题规模：Meta 异构硬件 × 模型架构 × 算子类型 = 数以千计的 kernel 配置，无法靠专家手动调优
硬件异构：NVIDIA GPU + AMD GPU + Meta 自研 MTIA (Gen 1-4) + CPU，每代芯片需不同 kernel；MTIA 两年内四个芯片代际
模型演进：Embedding-based DRM → Sequence Learning (Attention) → GEM (Generative Ads Model) → Meta Adaptive Ranking Model (LLM-scale)
KernelEvolve 方案：
- 将 kernel 优化建模为搜索问题（而非 one-shot 生成）
- LLM + job harness 评估候选 kernel，反馈诊断给 LLM，驱动数百种替代实现的连续搜索
- RAG 知识库注入平台特定文档（架构手册、指令集、优化模式），无需预训练目标硬件
- 树搜索探索算子实现替代方案，成功优化跨模型家族复用
实测结果：
- Andromeda Ads 模型推理吞吐提升 60%+（NVIDIA GPU）
- Ads 模型训练吞吐提升 25%+（MTIA 硅）
- 原本专家需要数周的优化工作，压缩到小时级自动搜索
目标硬件：NVIDIA GPU、AMD GPU、MTIA (Gen 1-4)、CPU
生成语言：Triton、Cute DSL、FlyDSL、CUDA、HIP、MTIA C++
发表：ISCA 2026（arXiv:2512.23236）
可信度：高 — Meta Engineering 官方博客，有具体性能数字和硬件代际
工程价值：⭐⭐⭐⭐⭐ — 展示 AI-native kernel 工程化路径，有工程规模数据，有方案架构图
是否需精读：是，重点提取：(1) agentic kernel search 的 prompt/harness 设计；(2) RAG knowledge base 构建方法；(3) 跨硬件泛化策略
链接：https://engineering.fb.com/2026/04/02/developer-tools/kernelevolve-how-metas-ranking-engineer-agent-optimizes-ai-infrastructure
评价：Meta 将 Agent 思想用于底层硬件 kernel 优化的首个公开工程细节。与"swe-agent"做代码修改不同，KernelEvolve 直接作用于 GPU 指令生成，且需处理真实硬件的数值精度和 memory hierarchy 问题。60% 的提升说明自动搜索已能在特定领域超越专家直觉。

✅ 保留 3：Spheron — vLLM vs TensorRT-LLM vs SGLang H100 实测对比

标题：vLLM vs TensorRT-LLM vs SGLang: H100 Benchmarks (2026)
来源：Spheron Network Blog
时间：2026 年 6 月（近期）
实测环境：
硬件：H100 SXM5 80GB，单卡，裸金属
模型：Llama 3.3 70B Instruct，FP8，Driver 590.48.01
Framework：vLLM v0.18.0 / TensorRT-LLM v1.2.0 / SGLang v0.5.9
基准方法：200 prompts，avg input 512 tokens / output 256 tokens，concurrency 1/10/50/100，3 分钟稳态测量
关键数据：

并发数	vLLM 吞吐	TRT-LLM 吞吐	SGLang 吞吐
1 req	120 tok/s	130 tok/s	125 tok/s
10 req	650 tok/s	710 tok/s	680 tok/s
50 req	1,850 tok/s	2,100 tok/s	1,920 tok/s
100 req	2,400 tok/s	2,780 tok/s	2,460 tok/s

并发数	vLLM p95 TTFT	TRT-LLM p95 TTFT	SGLang p95 TTFT
1 req	68 ms	55 ms	61 ms
10 req	195 ms	170 ms	178 ms
50 req	720 ms	620 ms	680 ms
100 req	1,450 ms	1,280 ms	1,380 ms

引擎	冷启动时间	峰值显存 (50 req)
vLLM	~62 sec	76 GB
TRT-LLM	~28 min	77 GB
SGLang	~58 sec	75 GB

冷启动注意：TRT-LLM 编译 28 分钟是单次成本；编译后 reload 约 90 秒；新 PyTorch 后端(v1.0 stable)可直接加载 HF weights，冷启动降至 ~60-90 秒
FP8 部署命令：--quantization fp8（vLLM/SGLang）/ --qformat fp8 in quantize.py（TRT-LLM）
vLLM 新特性：v0.18.0 移除 Ray 默认依赖；--performance-mode throughput 预调优；MRV2（Model Runner V2）在 GB200 上吞吐量提升 56%，H100 效果待测
SGLang 新特性：TRT-LLM DSA (DeepSeek Sparse Attention) 内核通过 --nsa-prefill-backend trtllm --nsa-decode-backend trtllm 在 Blackwell 上 3x-5x 加速；新支持 Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5
可信度：中 — Spheron 是商业云平台，测试方法论描述完整（随机种子、预热期、nvidia-smi 采样），但未开放原始数据
工程价值：⭐⭐⭐⭐ — 2026 年最新 H100 三引擎对比，含具体 benchmark 命令和配置参数，可直接用于工程选型
是否需精读：否，但建议纳入"推理引擎选型"快速参考表
链接：https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
评价：目前最详细的 2026 年 H100 三引擎实测。关键 insight：(1) TRT-LLM 编译换吞吐，非紧急弹性场景慎用；(2) SGLang 在 shared-prefix 场景（chatbot/RAG）有额外优势；(3) vLLM 冷启动 + 生态宽度仍是最优通用选择。

✅ 保留 4：GitHub — SGLang v0.5.13 (2026-06-13)

来源：github.com/sgl-project/sglang
信息：最新 release v0.5.13（2026-06-13），29.1k stars，6.6k forks，1,609 contributors
工程价值：⭐⭐⭐ — 活跃度高，支持 Qwen3.5/Kimi-K2.5/GLM-5/MiniMax 2.5，支持 DeepSeek V3.2 NSA（Native Sparse Attention）+ TRT-LLM 后端
备注：可补充到已有 SGLang 相关笔记

✅ 保留 5：GitHub — ContextPilot (EfficientContext)

来源：github.com/EfficientContext/ContextPilot
核心功能：长上下文推理加速 via context reuse，支持 OpenClaw/hermes-agent/vLLM/SGLang/llama.cpp 插件式集成
新增：2026-05 支持 Hermes Agent 作为 native context engine plugin；2026-03 支持云 API（OpenAI/Anthropic/MiniMax）cache sync；2026-03 支持 macOS/Apple Silicon via llama.cpp
工程价值：⭐⭐⭐ — 多引擎 context caching 方案，对 agentic 系统有直接价值
链接：https://github.com/EfficientContext/ContextPilot

丢弃条目

条目	丢弃理由
"Best LLM Inference Engines 2026: vLLM vs SGLang vs TGI vs llama.cpp" (deploybase.ai)	与 Spheron 同期内容，数字相近但方法论描述不如 Spheron 详细；覆盖 TGI/llama.cpp 是加分但非本次重点
"LLM Inference Optimization: A Practical Guide for AI Engineers" (jobsbyculture.com)	通用科普向，包含 KV cache/quantization/spd 等基础概念；无原创数据，无真实 benchmark，无代码/命令
"Open-source LLM inference engines compared: SGLang, vLLM, MAX, and BentoML" (LinkedIn/Modular)	LinkedIn 帖子，无技术深度；主要是 Modular MAX 推广
"AI Inference Engines: vLLM vs LMDeploy vs SGLang" (aimultiple.com)	2026 年内容但 H100 8B 模型偏小，且 29% 差距数字来自"架构差距"推算而非可控实验
"ai-hpc/ai-hardware-engineer-roadmap" GitHub	课程路线图性质，无具体工程内容
各 Substack 课程推广帖 (jamwithai, reactjava, javarevisited)	课程营销内容，无工程细节

分类标签

LLM-Serving Scheduling-Algorithms Kernel-Optimization Meta vLLM SGLang TensorRT-LLM H100 Benchmark ISCA2026 Agentic-Systems

建议写入路径

/shared/research-kb/inbox/jay/2026-06-19-1050-engineering-filter-kerneleev-inference-scheduling.md

后续行动建议

精读：arXiv 2605.01280（LLM Serving 算法立场论文）+ KernelEvolve ISCA 论文（arXiv:2512.23236）
主题页更新：建议在知识库建立"LLM Serving 调度算法"主题页，整合 WAIT/Nested WAIT 论文与本次保留条目 1
Benchmark 库：Spheron 实测数据（条目 3）可纳入"推理引擎选型"快速参考
交叉验证：KernelEvolve 的 60% 提升来自特定 Ads 模型，需核实其在其他模型（如 LLM）上的泛化性；TRT-LLM 编译 28 分钟数字来自 Spheron single-GPU 测试，多卡场景未覆盖