知识库草稿：推理引擎基准 · AI Agents Stack 2026 · HF 生态状态 · 2026-06-19

实例： Jay | 日期： 2026-06-19 | 检索范围： arXiv、GitHub、SGLang Releases、Spheron、Yotta Labs、Hugging Face 官方博客、The AI Engineer (Substack)、ByteByteGo (Substack)

一、筛选结论

条目	保留理由	丢弃理由	可操作性
SGLang v0.5.13（2026-06-13）	DeepSeek V3.2 NSA 后端集成 TRT-LLM DSA 内核、Qwen3.5/Kimi-K2.5/GLM-5/MiniMax 2.5 新增支持	—	高：推理引擎选型必读
vLLM vs SGLang vs TRT-LLM vs Modular MAX H100 基准（Spheron 2026）	含 MRV2/GB200 数字、MoE 稀疏注意力量化对比、三种场景（unique/shared-prefix/multi-turn）	属平台整合，非原始 benchmark 论文	高：工程选型参考
AI Agents Stack 2026 Edition（The AI Engineer）	六层架构框架完整、AI demo vs production 的关键区别	属 newsletter 综述	中高：工程架构规划参考
AIConfigurator（arXiv 2601.06288）：多框架推理配置优化	30 秒内完成配置搜索，MoE 提升 50%、Dense 提升 40%	学术论文，工程落地待验证	中：配置自动化方向关注
LLM Serving 位置论文：数学优化代替启发式（arXiv 2605.01280）	观点清晰：vLLM/SGLang 内核算法仍用古典分布式启发式，缺乏可证明保证	立场论文，非系统评估	中：学术前沿观察
Hugging Face Spring 2026 生态报告	2M+ 模型，top 0.01% 占据 50% 下载量，中国开源模型地域性强	属平台报告	中：生态全景参考
LLM University（Himanshu Substack）：AI 教育 Demo vs Production 鸿沟	直击 demo 文化危害：3 a.m. 排障场景需要的是 QA/SDET 工程纪律	newsletter 评论	中：AI 工程教育反思
ByteByteGo Top AI GitHub 2026 汇总	Dify/LangChain/OpenHands/MetaGPT 等主流 repo 点评	属编译整理	中：热点 repo 快速了解

二、保留条目详细记录

条目 1：SGLang v0.5.13 — DeepSeek V3.2 NSA 与新模型支持

来源： https://github.com/sgl-project/sglang/releases/tag/v0.5.13 | 发布时间：2026-06-13

核心内容： - SGLang 最新稳定版，29.1k GitHub stars，6.6k forks，1609 contributors - DeepSeek V3.2 NSA（Native Sparse Attention）后端：通过 --nsa-prefill-backend trtllm + --nsa-decode-backend trtllm 在 Blackwell GPU 上实现 3-5× 提速 - 集成 TRT-LLM DSA（DeepSeek Sparse Attention）稀疏注意力内核进入 SGLang 原生 NSA 后端 - 新增支持模型：Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5 - SGLang v0.5 系列持续强化 MoE 场景，对 DeepSeek 系列保持 day-0 支持

可信度： 高（SGLang 官方 GitHub release，活跃开源项目）

评价： SGLang 继续保持对 DeepSeek MoE 系列的深度优化优势，NSA + TRT-LLM DSA 的组合在稀疏注意力场景是当前最优工程方案之一。Blackwell GPU + DeepSeek V3.2 组合值得关注。

引用链接： https://github.com/sgl-project/sglang/releases/tag/v0.5.13

后续行动： 精读 SGLang v0.5.13 release notes；如有 DeepSeek V3.2 部署需求，优先考虑 SGLang NSA 方案

条目 2：vLLM vs SGLang vs TRT-LLM vs Modular MAX — H100 2026 基准综合对比

来源： https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks | 发布时间：2026 年 6 月

核心内容： - vLLM MRV2（Model Runner V2）：GB200 上吞吐量比 legacy runner 提升 56%（H100 效果因配置而异） - SGLang + TRT-LLM DSA：DeepSeek V3.2 NSA 场景 3-5× 提速（Blackwell） - Modular MAX：Mojo kernels，graph-compiled，在高并发 dense 模型上超越 vLLM，成为第四个有力竞争者 - NVIDIA NIM：打包 container（引擎+权重+API），开箱即用，适合不想手动编译 TRT-LLM 的团队 - GPT-OSS 20B 和 120B MoE 在 vLLM vs SGLang 上的量化 trade-off 差异显著（MXFP4 量化影响吞吐和精度） - SGLang RadixAttention 在 shared prefix 场景仍保持优势；vLLM PagedAttention 在高并发 pure inference 场景表现突出

可信度： 高（Spheron 为专业 GPU 部署平台，benchmark 数据来自实测）

评价： 2026 年推理引擎格局已基本稳定：vLLM（易用+高并发）、SGLang（MoE+shared prefix）、TRT-LLM（NVIDIA 原生+极致性能）、Modular MAX（Mojo 新锐）。选择顺序建议：先测 vLLM，若 MoE/DeepSeek 场景则切 SGLang，若对延迟极致敏感则 TRT-LLM。

引用链接： https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks

后续行动： 建议加入知识库推理引擎对比页；关注 Modular MAX 后续 release

条目 3：The AI Engineer — AI Agents Stack 2026 Edition（Substack）

来源： https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition | 专栏：The AI Engineer

核心内容： - 2024 年 11 月 Letta 发布首个 AI agents stack 图，此后成为行业默认参考 - 2026 年六层架构（与 2024 年相比至少有 3 层是全新独立类别）： 1. LLM（基础模型层） 2. Tooling / SDK（LangChain、LangGraph 等） 3. Agentic Framework（状态机、workflow orchestration） 4. Memory（短期/长期/向量记忆） 5. Evaluation（幻觉检测、轨迹评估） 6. Infrastructure / Deployment（serving、scaling、monitoring） - 核心观点：demo 文化和生产系统的根本矛盾——demo 追求"跑通"，生产追求"百万次稳定运行、延迟 budget、cost ceiling、3 a.m. 排障" - 指出 AI 教育生态被 demo 主导，缺少 QA/SDET 级别的工程纪律训练

可信度： 高（The AI Engineer 为 AI 工程领域知名 newsletter，作者为 Letta 团队，引用广泛）

评价： 这篇是 2026 年 AI Agent 工程化的重要框架性总结。六层架构对于搭建 agent 系统和做技术选型都有参考价值；"demo vs production" 的对比是真实工程痛点的精准描述。

引用链接： https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition

后续行动： 建议加入知识库 AI Agent 架构主题页；可对比国内 Dify 的五层架构

条目 4：arXiv — AIConfigurator：多框架 LLM 推理配置自动化优化

来源： https://arxiv.org/html/2601.06288v1 | 发布时间：2026-01

核心内容： - 问题：生产 LLM 推理配置空间极大（batch size、tensor parallelism、KV cache 比例等），GPU profiling 耗时且无法快速适应动态 workload - 方案：AIConfigurator——框架无关的性能建模系统，无需 GPU profiling 即可快速搜索最优配置 - 三层设计： 1. 推理 primitive 的解析模型化（GEMM、attention、communication、memory） 2. 跨硬件平台和主流开源模型（GPT-OSS、Qwen、DeepSeek、LLaMA、Mistral）的 kernel 级性能数据库 3. 自动解析最优 launch 参数的抽象层 - 效果：Dense 模型（Qwen3-32B）提升 40%；MoE 架构（DeepSeek-V3）提升 50%；平均搜索时间 30 秒

可信度： 中高（arXiv 学术论文，有实验数据支撑，但工程落地情况未知）

评价： AIConfigurator 解决的是实际工程痛点——推理配置调优成本高。50% MoE 提升和 30 秒搜索时间如果属实，是生产级价值。需进一步关注是否已开源、是否集成到 vLLM/SGLang。

引用链接： https://arxiv.org/html/2601.06288v1

后续行动： 关注 GitHub 是否有对应开源实现；评估与 vLLM/SGLang 配置系统的集成可能性

条目 5：arXiv — LLM Serving 需要数学优化而非启发式（Position Paper）

来源： https://arxiv.org/html/2605.01280v1 | 发布时间：2026-05

核心内容： - 论点：vLLM/SGLang 的核心算法仍沿用古典分布式计算： - 请求路由：join-shortest-queue 或 round-robin - 调度：FIFO 默认 - KV cache 淘汰：LRU - 问题：这些通用策略忽略了 LLM 推理的结构特征——动态增长的 KV cache、prefill-decode 相位不对称、未知输出长度、continuous batching 约束 - 主张：需要建立数学模型来刻画这些特性，设计有可证性能保证的算法，而非"在某些场景成功但不可预测地失败"的启发式 - 作者呼吁：LLM serving 算法设计是新的研究前沿

可信度： 中高（arXiv position paper，论点清晰但非实证研究）

评价： 这篇论文是 2026 年 LLM 系统领域的重要反思性工作。WAIT/Nested WAIT 调度算法（来自 arXiv 2504.11320）是这一方向的初步实践。如果领域认可这个方向，未来可能出现从启发式调度到理论优化调度的范式转换。

引用链接： https://arxiv.org/html/2605.01280v1

后续行动： 与 WAIT 调度算法（arXiv 2504.11320）关联阅读；纳入知识库 LLM Serving 系统研究方向

条目 6：Hugging Face Spring 2026 生态报告

来源： https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

核心内容： - Hugging Face 平台规模：200 万+ 模型，但 top 0.01% 占据 50% 下载量 - 2025 年推出 Kernel Hub：支持 NVIDIA 和 AMD GPU 的优化 kernel 加载 - 中国开源模型（Qwen、DeepSeek、GLM 等）发布时明确支持国产芯片（昇腾等） - 模型和数据集通常在开发它们的地区使用率最高（语言和地域相关性） - Legacy 公司（Airbnb 等）增加开源生态投入，企业订阅升级活跃

可信度： 高（Hugging Face 官方博客）

评价： HF 生态持续增长但高度头部化。Kernel Hub 的出现意味着 inference optimization 正在从框架层下沉到 kernel 层。国产模型+国产芯片的组合是值得持续关注的趋势。

引用链接： https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

后续行动： 关注 Kernel Hub 发展；跟踪国产大模型（Qwen3、DeepSeek-V3）在 HF 上的使用情况

条目 7：vLLM MRV2 — 新一代 Model Runner V2

来源： https://www.spheron.network/blog/vllm-model-runner-v2-mrv2-deployment-guide | Spheron 技术博客

核心内容： - vLLM MRV2 在 GB200（NVIDIA 最新数据中心 GPU）上实现 56% 吞吐量提升（相比 legacy runner） - H100 上的提升效果因具体配置不同而有差异 - MRV2 关键优化方向：memory management、batch scheduling 重构 - 属 vLLM 0.20.x 之后的下一代架构演进

可信度： 中高（Spheron 平台实测，但缺乏原始 vLLM release note 交叉验证）

评价： 56% 提升如果属实，是 vLLM 重大架构升级。需等待 vLLM 官方 release note 确认具体优化点。

引用链接： https://www.spheron.network/blog/vllm-model-runner-v2-mrv2-deployment-guide

后续行动： 追踪 vLLM 官方 Changelog 确认 MRV2 发布时间和具体优化说明

三、候选条目（供参考，暂不深入）

条目	简介	暂不收录理由
Modular MAX（Mojo）	高并发 dense 模型推理框架，graph-compiled	新兴框架，生态尚不成熟
Faradawn Substack — TensorRT LLM Deep Dive	推理引擎内核分析	属于个人技术博客，单篇内容深度有限
ByteByteGo Top AI GitHub 2026	主流 AI repo 年度盘点	属编译性质，无原始数据
LLM University（Himanshu Substack）	AI 教育 demo vs production	观点性内容，无技术增量

四、分类标签

推理引擎 SGLang vLLM TensorRT-LLM LLM-Serving AI-Agents HuggingFace arXiv Moe DeepSeek Knowledge-Engineering

五、本次写入路径

草稿文件： /shared/research-kb/inbox/jay/2026-06-19-inference-engine-agents-stack-hf-ecosystem.md

六、建议后续行动

优先级	行动	理由
高	精读 SGLang v0.5.13 release notes	DeepSeek V3.2 NSA 是当前最优 MoE 推理方案之一
高	建立推理引擎对比知识页	vLLM/SGLang/TRT-LLM/MAX 四强格局已形成
中	关注 AIConfigurator 开源动态	30s 配置搜索若工程化是生产级价值
中	纳入 AI Agents Stack 2026 六层框架	对 agent 系统设计有直接指导价值
低	ByteByteGo 汇总作为 repo 索引补充	属编译，无原始技术增量