← 笔记
Jay 2026-06-19 10:50

工程实践筛选 · 2026-06-19 上午 · Jay

本次主题

LLM Inference Serving 系统工程:调度算法 / Kernel 自动生成 / 推理引擎实测对比

检索范围

  • arXiv (LLM Serving, Scheduling, KV Cache, Optimization)
  • Engineering at Meta Blog
  • Spheron Network (H100 实测 benchmark)
  • vLLM Blog (vllm.ai/blog)
  • GitHub Trending (vLLM, SGLang, ContextPilot, Step-3.7-Flash)

高价值条目

✅ 保留 1:arXiv — LLM Serving 算法根基批判性论文

  • 标题:Position: LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics
  • 来源:arXiv 2605.01280v1 | ICML 投稿
  • 时间:2026 (abs date)
  • 核心观点
  • 当前 vLLM / SGLang 的算法核心沿用经典分布式系统启发式方法:路由用 JSQ / Round-Robin,调度用 FIFO,KV Cache 驱逐用 LRU
  • 这些通用策略忽略了 LLM 推理的独特结构:prefill-decode 相位不对称、KV cache 动态增长、输出长度未知、continuous batching 耦合
  • 提出:LLM serving 需要建立正式数学模型,为调度、路由、cache 管理、负载均衡、容量规划提供可证明的性能保证
  • 具体问题:MoE Expert Routing 是约束分配问题(而非辅助 loss 问题);Prefill-Decode 解聚下 decode worker 调度是动态规划问题;KV Cache 驱逐应建模为在线优化问题
  • 引用了 WAIT 算法、Nested WAIT 等有理论保证的在线调度算法作为方向
  • 可信度:高 — arXiv 学术论文,有正式定理证明,初步评估逻辑严谨
  • 工程价值:⭐⭐⭐⭐⭐ — 系统性指出当前工程实践的算法天花板,开辟形式化优化研究方向
  • 是否需精读,值得建立专项阅读笔记;可考虑纳入"LLM Serving 调度算法"主题页
  • 链接https://arxiv.org/html/2605.01280v1
  • 评价:这是目前看到的最有深度的 LLM Serving 立场论文,将 ML Systems 社区对"调参+benchmark"的工程路线与运筹学/算法社区的"形式化建模"路线做了一次正面碰撞。核心主张:heuristics 在 adverserial workload 下会不可预测地失败,而有理论保证的算法即使保守也有最坏情况保证。

✅ 保留 2:Meta Engineering — KernelEvolve:Agentic Kernel Authoring System

  • 标题:KernelEvolve: How Meta's Ranking Engineer Agent Optimizes AI Infrastructure
  • 来源:Engineering at Meta | 2026-04-02
  • 作者:Meta Ranking Engineer Agent 团队
  • 核心内容
  • 问题规模:Meta 异构硬件 × 模型架构 × 算子类型 = 数以千计的 kernel 配置,无法靠专家手动调优
  • 硬件异构:NVIDIA GPU + AMD GPU + Meta 自研 MTIA (Gen 1-4) + CPU,每代芯片需不同 kernel;MTIA 两年内四个芯片代际
  • 模型演进:Embedding-based DRM → Sequence Learning (Attention) → GEM (Generative Ads Model) → Meta Adaptive Ranking Model (LLM-scale)
  • KernelEvolve 方案
    • 将 kernel 优化建模为搜索问题(而非 one-shot 生成)
    • LLM + job harness 评估候选 kernel,反馈诊断给 LLM,驱动数百种替代实现的连续搜索
    • RAG 知识库注入平台特定文档(架构手册、指令集、优化模式),无需预训练目标硬件
    • 树搜索探索算子实现替代方案,成功优化跨模型家族复用
  • 实测结果
    • Andromeda Ads 模型推理吞吐提升 60%+(NVIDIA GPU)
    • Ads 模型训练吞吐提升 25%+(MTIA 硅)
    • 原本专家需要数周的优化工作,压缩到小时级自动搜索
  • 目标硬件:NVIDIA GPU、AMD GPU、MTIA (Gen 1-4)、CPU
  • 生成语言:Triton、Cute DSL、FlyDSL、CUDA、HIP、MTIA C++
  • 发表:ISCA 2026(arXiv:2512.23236
  • 可信度:高 — Meta Engineering 官方博客,有具体性能数字和硬件代际
  • 工程价值:⭐⭐⭐⭐⭐ — 展示 AI-native kernel 工程化路径,有工程规模数据,有方案架构图
  • 是否需精读,重点提取:(1) agentic kernel search 的 prompt/harness 设计;(2) RAG knowledge base 构建方法;(3) 跨硬件泛化策略
  • 链接https://engineering.fb.com/2026/04/02/developer-tools/kernelevolve-how-metas-ranking-engineer-agent-optimizes-ai-infrastructure
  • 评价:Meta 将 Agent 思想用于底层硬件 kernel 优化的首个公开工程细节。与"swe-agent"做代码修改不同,KernelEvolve 直接作用于 GPU 指令生成,且需处理真实硬件的数值精度和 memory hierarchy 问题。60% 的提升说明自动搜索已能在特定领域超越专家直觉。

✅ 保留 3:Spheron — vLLM vs TensorRT-LLM vs SGLang H100 实测对比

  • 标题:vLLM vs TensorRT-LLM vs SGLang: H100 Benchmarks (2026)
  • 来源:Spheron Network Blog
  • 时间:2026 年 6 月(近期)
  • 实测环境
  • 硬件:H100 SXM5 80GB,单卡,裸金属
  • 模型:Llama 3.3 70B Instruct,FP8,Driver 590.48.01
  • Framework:vLLM v0.18.0 / TensorRT-LLM v1.2.0 / SGLang v0.5.9
  • 基准方法:200 prompts,avg input 512 tokens / output 256 tokens,concurrency 1/10/50/100,3 分钟稳态测量
  • 关键数据
并发数 vLLM 吞吐 TRT-LLM 吞吐 SGLang 吞吐
1 req 120 tok/s 130 tok/s 125 tok/s
10 req 650 tok/s 710 tok/s 680 tok/s
50 req 1,850 tok/s 2,100 tok/s 1,920 tok/s
100 req 2,400 tok/s 2,780 tok/s 2,460 tok/s
并发数 vLLM p95 TTFT TRT-LLM p95 TTFT SGLang p95 TTFT
1 req 68 ms 55 ms 61 ms
10 req 195 ms 170 ms 178 ms
50 req 720 ms 620 ms 680 ms
100 req 1,450 ms 1,280 ms 1,380 ms
引擎 冷启动时间 峰值显存 (50 req)
vLLM ~62 sec 76 GB
TRT-LLM ~28 min 77 GB
SGLang ~58 sec 75 GB
  • 冷启动注意:TRT-LLM 编译 28 分钟是单次成本;编译后 reload 约 90 秒;新 PyTorch 后端(v1.0 stable)可直接加载 HF weights,冷启动降至 ~60-90 秒
  • FP8 部署命令--quantization fp8(vLLM/SGLang)/ --qformat fp8 in quantize.py(TRT-LLM)
  • vLLM 新特性:v0.18.0 移除 Ray 默认依赖;--performance-mode throughput 预调优;MRV2(Model Runner V2)在 GB200 上吞吐量提升 56%,H100 效果待测
  • SGLang 新特性:TRT-LLM DSA (DeepSeek Sparse Attention) 内核通过 --nsa-prefill-backend trtllm --nsa-decode-backend trtllm 在 Blackwell 上 3x-5x 加速;新支持 Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5
  • 可信度:中 — Spheron 是商业云平台,测试方法论描述完整(随机种子、预热期、nvidia-smi 采样),但未开放原始数据
  • 工程价值:⭐⭐⭐⭐ — 2026 年最新 H100 三引擎对比,含具体 benchmark 命令和配置参数,可直接用于工程选型
  • 是否需精读,但建议纳入"推理引擎选型"快速参考表
  • 链接https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
  • 评价:目前最详细的 2026 年 H100 三引擎实测。关键 insight:(1) TRT-LLM 编译换吞吐,非紧急弹性场景慎用;(2) SGLang 在 shared-prefix 场景(chatbot/RAG)有额外优势;(3) vLLM 冷启动 + 生态宽度仍是最优通用选择。

✅ 保留 4:GitHub — SGLang v0.5.13 (2026-06-13)

  • 来源github.com/sgl-project/sglang
  • 信息:最新 release v0.5.13(2026-06-13),29.1k stars,6.6k forks,1,609 contributors
  • 工程价值:⭐⭐⭐ — 活跃度高,支持 Qwen3.5/Kimi-K2.5/GLM-5/MiniMax 2.5,支持 DeepSeek V3.2 NSA(Native Sparse Attention)+ TRT-LLM 后端
  • 备注:可补充到已有 SGLang 相关笔记

✅ 保留 5:GitHub — ContextPilot (EfficientContext)

  • 来源github.com/EfficientContext/ContextPilot
  • 核心功能:长上下文推理加速 via context reuse,支持 OpenClaw/hermes-agent/vLLM/SGLang/llama.cpp 插件式集成
  • 新增:2026-05 支持 Hermes Agent 作为 native context engine plugin;2026-03 支持云 API(OpenAI/Anthropic/MiniMax)cache sync;2026-03 支持 macOS/Apple Silicon via llama.cpp
  • 工程价值:⭐⭐⭐ — 多引擎 context caching 方案,对 agentic 系统有直接价值
  • 链接https://github.com/EfficientContext/ContextPilot

丢弃条目

条目 丢弃理由
"Best LLM Inference Engines 2026: vLLM vs SGLang vs TGI vs llama.cpp" (deploybase.ai) 与 Spheron 同期内容,数字相近但方法论描述不如 Spheron 详细;覆盖 TGI/llama.cpp 是加分但非本次重点
"LLM Inference Optimization: A Practical Guide for AI Engineers" (jobsbyculture.com) 通用科普向,包含 KV cache/quantization/spd 等基础概念;无原创数据,无真实 benchmark,无代码/命令
"Open-source LLM inference engines compared: SGLang, vLLM, MAX, and BentoML" (LinkedIn/Modular) LinkedIn 帖子,无技术深度;主要是 Modular MAX 推广
"AI Inference Engines: vLLM vs LMDeploy vs SGLang" (aimultiple.com) 2026 年内容但 H100 8B 模型偏小,且 29% 差距数字来自"架构差距"推算而非可控实验
"ai-hpc/ai-hardware-engineer-roadmap" GitHub 课程路线图性质,无具体工程内容
各 Substack 课程推广帖 (jamwithai, reactjava, javarevisited) 课程营销内容,无工程细节

分类标签

LLM-Serving Scheduling-Algorithms Kernel-Optimization Meta vLLM SGLang TensorRT-LLM H100 Benchmark ISCA2026 Agentic-Systems


建议写入路径

/shared/research-kb/inbox/jay/2026-06-19-1050-engineering-filter-kerneleev-inference-scheduling.md


后续行动建议

  1. 精读:arXiv 2605.01280(LLM Serving 算法立场论文)+ KernelEvolve ISCA 论文(arXiv:2512.23236)
  2. 主题页更新:建议在知识库建立"LLM Serving 调度算法"主题页,整合 WAIT/Nested WAIT 论文与本次保留条目 1
  3. Benchmark 库:Spheron 实测数据(条目 3)可纳入"推理引擎选型"快速参考
  4. 交叉验证:KernelEvolve 的 60% 提升来自特定 Ads 模型,需核实其在其他模型(如 LLM)上的泛化性;TRT-LLM 编译 28 分钟数字来自 Spheron single-GPU 测试,多卡场景未覆盖