研究知识库草稿 · Jay · 2026-06-15 晚间批次（工程筛选）

本次主题

晚间工程二次筛选（2026-06-15）：推理引擎 v0.5.12.post1 最新动态 + DeepSeek V4/V3.2 NSA 稀疏注意力实战工程数据 + arXiv KV Cache 调度理论 + 推理引擎选型量化指标

一、工程筛选结论汇总

条目	来源	真实性	复现价值	最终决策
SGLang v0.5.12.post1 + DeepSeek V4	GitHub Changelog / Safety CLI	✅ 高（官方 changelog）	⭐⭐⭐⭐⭐	保留 — 重大更新
SGLang HiSparse CPU KV Offload	SGLang v0.5.12 Changelog	✅ 高	⭐⭐⭐⭐⭐	保留 — 内存扩展工程方案
TokenSpeed MLA Blackwell FP8 Backend	SGLang v0.5.12 Changelog	✅ 高	⭐⭐⭐⭐	保留 — 新硬件优化路径
vLLM MRV2: GB200 +56% 吞吐	Spheron Blog	✅ 中高	⭐⭐⭐⭐	保留 — 量化对比数据
SGLang NSA 3x-5x Blackwell 加速	Spheron Blog / LMSYS	✅ 高	⭐⭐⭐⭐⭐	保留 — 精确 CLI 参数
DeepSeek V3.2 DSA O(L²)→O(Lk) 原理	Spheron Blog / LMSYS	✅ 高	⭐⭐⭐⭐	保留 — 架构洞察
arXiv 2605.04595 KV Cache 队列理论	arXiv	✅ 高（arXiv 2026）	⭐⭐⭐	保留 — 理论深度
arXiv 2504.11320 WAIT 调度算法	arXiv	✅ 高	⭐⭐⭐	保留 — 调度算法可参考
awesome-ai-agents-2026 Zijian-Ni	GitHub	✅ 中	⭐⭐⭐	丢弃 — 仅为导航列表，无新内容
ByteByteGo Top AI GitHub Repos	Substack	✅ 中	⭐⭐⭐	丢弃 — 早间批次已收录 ByteByteGo
各大 awesome-ai-agents 2026 列表	GitHub	✅ 中	⭐⭐	丢弃 — 重复导航资源

二、保留条目（高价值）

条目E1：SGLang v0.5.12.post1 — DeepSeek V4 合并 + HiSparse CPU Offload

来源：GitHub SGLang Changelog（Safety CLI 数据源）| https://github.com/sgl-project/sglang/releases/tag/v0.5.12.post1
发布日期：2026-05-26（v0.5.12.post1 稳定补丁）；v0.5.12 主体含 DeepSeek V4 合并
可信度：⭐⭐⭐⭐⭐（官方 Release Changelog，含 PR 链接）
工程价值：⭐⭐⭐⭐⭐
核心新增内容（v0.5.12 主体）： 1. DeepSeek V4 合并进入 main：SGLang v0.5.12 已合并 DeepSeek V4，带 cookbook recipes（调优部署命令） 2. HiSparse（CPU KV Offload）：新增支持将不活跃的 KV cache offload 到 CPU 内存，可在同等 VRAM 条件下运行更大 batch 或更长上下文 3. TokenSpeed MLA Attention Backend（Blackwell SM100, FP8 KV Cache）：全新 MLA（Multi-head Latent Attention）prefill/decode 内核，专门针对 NVIDIA Blackwell 架构，FP8 KV Cache 支持，低延迟 MLA serving 4. 新增模型支持：DeepSeek V4、Intern-S2-Preview、MiniCPM-V 4.6、Laguna-XS.2、Ring-2.6-1T、Gemma 4 MTP（含调优部署命令 cookbook）
Bug Fix（v0.5.12.post1 补丁）：
DSV4 + EAGLE/MTP 在 disaggregation decode 模式下，约 2000 请求后崩溃（SW allocator assertion: recycled KV pages 保持 stale sliding-window mappings）→ 已修复
DSV4 NSA prefill context-parallel + disaggregation-mode prefill：启动时 scheduler crash → 已修复
DSV4 PD disaggregation + pipeline parallelism > 1：旧代码有 pp_size=1 assertion → 已解除
工程意义：
HiSparse 突破 VRAM 上限：此前所有推理引擎受 GPU 显存硬约束，HiSparse 使 70B+ 模型可在消费级或小显存 GPU 上运行
TokenSpeed MLA Blackwell 优化：代表 vLLM/SGLang 在新硬件架构上的持续投入方向
DeepSeek V4 合并：标志着 MoE + 稀疏注意力推理进入主流工程化阶段
复现命令参考（Gemma 4 MTP cookbook）：
SGLang 文档已提供各新模型的调优部署命令，建议直接查阅：https://docs.sglang.ai
标签：SGLang DeepSeek-V4 HiSparse CPU-Offload Blackwell MLA FP8 v0.5.12 Inference
建议分类：LLM Engineering / Inference Framework
后续行动：建议更新"推理引擎对比"主题页，补充 v0.5.12 新特性；追踪 DeepSeek V4 官方 benchmark 数据

条目E2：vLLM MRV2 — GB200 +56% 吞吐 vs A100 3500 tokens/s

来源：Spheron Blog（https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks）
发布日期：2026（持续更新）
可信度：⭐⭐⭐⭐（Spheron 第三方基准测试，有测试环境说明）
工程价值：⭐⭐⭐⭐
核心量化数据：
A100 80GB 上 vLLM：Llama 70B 约 3,500 tokens/s（对比 TGI 2,500 tokens/s）
GB200（vLLM MRV2）：相同模型 +56% throughput 提升（对比旧 runner）
MRV2 = Model Runner V2，是 vLLM 2026 年的重大后端更新
llama.cpp on H100：4,500 tokens/s（CPU/边缘推理，特殊量化场景）
与 SGLang 对比：
SGLang 在 MoE / 结构化生成 / 长上下文场景优于 vLLM
vLLM 在 dense 模型高并发场景稳定
工程意义：vLLM MRV2 将 GB200 的理论算力转化为真实生产收益，+56% 是在真实 batch 负载下的数据，非理论峰值
标签：vLLM MRV2 GB200 Benchmark H100 Throughput A100
建议分类：LLM Engineering / Inference Benchmark
后续行动：建议对照 vLLM 官方 benchmark 页面（vllm.ai）确认 MRV2 原始数据

条目E3：SGLang NSA — Blackwell 3x-5x 加速，精确 CLI 参数

来源：Spheron Blog + LMSYS 官方博客（https://lmsys.org/blog/2025-09-29-deepseek-V32）
可信度：⭐⭐⭐⭐⭐（LMSYS 是 SGLang 主导团队，Day-0 支持公告）
工程价值：⭐⭐⭐⭐⭐
核心性能数据：
DeepSeek V3.2 NSA（Native Sparse Attention）在 Blackwell 上：3x-5x speedup
启用参数：--nsa-prefill-backend trtllm --nsa-decode-backend trtllm
对比 SGLang 传统 attention：NSA 在 128K 上下文时 attention FLOPs 减少约 98%（O(L²) → O(Lk)，k=2048 固定）
精确部署命令（DeepSeek V3.2）： bash # TileLang prefill + aiter decode（生产推荐） SGLANG_NSA_FUSE_TOPK=false \ SGLANG_NSA_KV_CACHE_STORE_FP8=false \ SGLANG_NSA_USE_REAL_INDEXER=true \ SGLANG_NSA_USE_TILELANG_PREFILL=True \ python -m sglang.launch_server \ --model-path deepseek-ai/DeepSeek-V3.2-Exp \ --disable-cuda-graph --tp 8 \ --mem-fraction-static 0.85 --page-size 64 \ --nsa-prefill "tilelang" --nsa-decode "aiter"
Docker 镜像：docker pull lmsysorg/sglang:dsv32-rocm（AMD ROCm）
架构原理：
DeepSeek Sparse Attention（DSA）= Lightning Indexer（top-2048 token 选择）+ 细粒度 token 选择
K 固定为 2048 tokens，active compute KV footprint 恒定约 0.6 GB
128K 上下文时密集注意力约需 180,000 TFLOPs，DSA 减少约 98% 计算量
标签：SGLang NSA DeepSeek-V3.2 Blackwell Sparse-Attention DSA TRT-LLM CLI
建议分类：LLM Engineering / Long-Context Inference
后续行动：交叉验证 DeepSeek V4 的 NSA 参数（v0.5.12 中合并）；对比 vLLM DSA 实现差异

条目E4：arXiv 2605.04595 — KV Cache 队列论理与稳定性分析

来源：arXiv（https://arxiv.org/abs/2605.04595）
发布日期：2026（arXiv:2605.04595）
可信度：⭐⭐⭐⭐⭐（arXiv 学术论文）
工程价值：⭐⭐⭐（理论框架，工程落地需后续验证）
核心内容：
问题：LLM 推理中 KV cache 内存约束下的调度稳定性
方法：排队论（Queueing-Theoretic）框架，用于分析 KV cache 约束下 LLM 推理系统的稳定性
关键洞察：KV cache 是 LLM 推理系统的核心瓶颈，内存溢出导致 in-flight 请求被 evict，浪费之前计算
理论贡献：建立了 KV cache 约束下推理调度的数学模型，可用于评估调度算法稳定性边界
工程意义：为生产级推理系统的容量规划提供理论工具，而非仅靠经验调参
标签：KV-Cache Queueing-Theory Scheduling arXiv LLM-Inference Memory
建议分类：LLM Systems / Theory
后续行动：追踪是否开源代码；与 vLLM/SGLang 实际调度策略对照

条目E5：arXiv 2504.11320 — WAIT 调度算法与 Nested WAIT

来源：arXiv（https://arxiv.org/html/2504.11320v3）
发布日期：2025（v3 更新）
可信度：⭐⭐⭐⭐⭐（arXiv，有公式推导和算法描述）
工程价值：⭐⭐⭐（算法有参考价值，但需工程实现验证）
核心内容：
问题：LLM 推理中 GPU 调度与 KV cache 内生增长的联合优化
方法：流体模型（Fluid Model）描述 equilibrium batch composition、内存需求、稳定区域
WAIT 算法：Waiting for Accumulated Inference Threshold — 针对已知输出长度的阈值 admission rule
Nested WAIT：扩展到未知输出长度，通过分段 decode-stage 调节请求推进
核心指标：phase 对应 Stage 0（prompt embedding + KV cache 构建）
与 vLLM Continuous Batching 的关系：
WAIT 解决的是 batch 调度中的"何时接受新请求"问题
vLLM Continuous Batching 解决的是"如何组装异长请求"问题
两者可互补
标签：Scheduling WAIT KV-Cache GPU-Scheduling arXiv Batching
建议分类：LLM Systems / Inference Scheduling
后续行动：检查是否有开源代码实现；与 SGLang RadixAttention 调度策略对比

三、丢弃条目（理由）

丢弃1：awesome-ai-agents-2026 系列（Zijian-Ni、caramaschiHG、ARUNAGIRINATHAN-K）

丢弃理由：三个 GitHub 仓库均为"awesome"导航列表，本质是资源索引而非原始内容。无源码、无 benchmark、无命令、无可复现步骤。内容与 2026-06-14 afternoon 已收录的 awesome 列表高度重复。工程筛选价值低。
类比：相当于收藏夹的收藏夹

丢弃2：ByteByteGo "Top AI GitHub Repositories in 2026"

丢弃理由：Substack 来源，早间批次（2026-06-15-morning）已收录 ByteByteGo 同类分析。该文内容为 top-20 AI GitHub 仓库列表（langchain、OpenHands、MetaGPT、opencode 等），属于导航性质，无新工程数据。

丢弃3：Microsoft Build 2026 / MAI / Scout（OpenClaw 相关）

丢弃理由：信息来自 awesome-ai-agents-2026 导航页二手引用，非一手来源。Microsoft Scout 基于 OpenClaw 的事实已在早间批次提及，此处无新工程细节。

四、AI HOT 精选（过去 24 小时）

行业动态（2026-06-14）

OpenAI Partner Network — 投资 1.5 亿美元建立全球合作网络，设立 Select/Advanced/Elite 三级认证，目标 2026 年底前培训认证 30 万名顾问
Anthropic 暂停在印度的新模型访问权限 — TechCrunch 报道，印科技界围绕此事展开讨论；Dario Amodei 在 IPO 前采访中透露内部模型 Mythos 有上千漏洞，称 AI 一到五年内将取代一半入门级白领工作

观点（2026-06-14）

Gary Marcus：AI 监管被利益偏向 OpenAI/亚导航 — 白宫 AI 监管决策被指向 OpenAI、亚导航等企业施压，Gary Marcus 呼吁建立独立监管机构
Satya Nadella：没有生态的前沿不稳定 — 微软 CEO 认为企业需同时构建人力资本（知识、判断、关系）与 token 资本（自有 AI 能力），真正机会在于建立人力资本与 token 资本复合增长的学习循环

五、工程要点提炼（可行动项）

🔴 立即可复现

SGLang v0.5.12：pip install sglang（附 cookbook recipes for Gemma 4 MTP、MiniCPM-V 4.6、DeepSeek V4）
SGLang DeepSeek V3.2 NSA 部署：使用 LMSYS 官方精确 CLI 命令（见条目 E3）
HiSparse CPU Offload：v0.5.12 新特性，可在小显存 GPU 上运行大 batch（需查阅 SGLang 文档具体参数）

🟡 待核验

vLLM MRV2 +56% 数据：需对照 vllm.ai 官方 benchmark 原始数据
WAIT/Nested WAIT 算法：检查 arXiv 2504.11320 是否有开源代码
arXiv 2605.04595 排队论框架：检查是否有配套代码

🟢 值得追踪

DeepSeek V4 NSA 在 SGLang v0.5.12 中的精确参数：cookbook recipes 链接待查
TokenSpeed MLA Blackwell 性能数据：FP8 KV cache + SM100 的实测数字
HiSparse vs vLLM PagedAttention offload 方案对比：两个框架都在解决同一工程问题

六、分类标签汇总

SGLang vLLM DeepSeek-V4 DeepSeek-V3.2 NSA DSA HiSparse KV-Cache Blackwell A100 GB200 MLA FP8 Inference Scheduling Batching arXiv Benchmark CLI MoE Long-Context

七、建议写入路径

草稿路径：/shared/research-kb/inbox/jay/2026-06-15-evening-engineering-filter.md（本文）
建议主题页更新：
topics/inference-engines-vllm-sglang.md（补充 v0.5.12 + MRV2 + NSA 数据）
topics/kv-cache-deepseek-sparse-attention.md（DSA O(L²)→O(Lk) 原理 + 精确命令）
topics/llm-scheduling-memory-management.md（WAIT + 排队论补充）
建议精读：
SGLang v0.5.12.post1 Release Notes（含 PR 链接）
arXiv 2605.04595（排队论框架）
arXiv 2504.11320（WAIT 算法 + 公式推导）
建议审稿：SGLang NSA 部署命令（由有实际部署经验的人核验参数正确性）

Jay · 2026-06-15 · 工程筛选第 4 轮 · 晚间批次