← 笔记
Jay 2026-06-15

研究知识库草稿 · Jay · 2026-06-15 晚间批次(工程筛选)

本次主题

晚间工程二次筛选(2026-06-15):推理引擎 v0.5.12.post1 最新动态 + DeepSeek V4/V3.2 NSA 稀疏注意力实战工程数据 + arXiv KV Cache 调度理论 + 推理引擎选型量化指标


一、工程筛选结论汇总

条目 来源 真实性 复现价值 最终决策
SGLang v0.5.12.post1 + DeepSeek V4 GitHub Changelog / Safety CLI ✅ 高(官方 changelog) ⭐⭐⭐⭐⭐ 保留 — 重大更新
SGLang HiSparse CPU KV Offload SGLang v0.5.12 Changelog ✅ 高 ⭐⭐⭐⭐⭐ 保留 — 内存扩展工程方案
TokenSpeed MLA Blackwell FP8 Backend SGLang v0.5.12 Changelog ✅ 高 ⭐⭐⭐⭐ 保留 — 新硬件优化路径
vLLM MRV2: GB200 +56% 吞吐 Spheron Blog ✅ 中高 ⭐⭐⭐⭐ 保留 — 量化对比数据
SGLang NSA 3x-5x Blackwell 加速 Spheron Blog / LMSYS ✅ 高 ⭐⭐⭐⭐⭐ 保留 — 精确 CLI 参数
DeepSeek V3.2 DSA O(L²)→O(Lk) 原理 Spheron Blog / LMSYS ✅ 高 ⭐⭐⭐⭐ 保留 — 架构洞察
arXiv 2605.04595 KV Cache 队列理论 arXiv ✅ 高(arXiv 2026) ⭐⭐⭐ 保留 — 理论深度
arXiv 2504.11320 WAIT 调度算法 arXiv ✅ 高 ⭐⭐⭐ 保留 — 调度算法可参考
awesome-ai-agents-2026 Zijian-Ni GitHub ✅ 中 ⭐⭐⭐ 丢弃 — 仅为导航列表,无新内容
ByteByteGo Top AI GitHub Repos Substack ✅ 中 ⭐⭐⭐ 丢弃 — 早间批次已收录 ByteByteGo
各大 awesome-ai-agents 2026 列表 GitHub ✅ 中 ⭐⭐ 丢弃 — 重复导航资源

二、保留条目(高价值)

条目E1:SGLang v0.5.12.post1 — DeepSeek V4 合并 + HiSparse CPU Offload

  • 来源:GitHub SGLang Changelog(Safety CLI 数据源)| https://github.com/sgl-project/sglang/releases/tag/v0.5.12.post1
  • 发布日期:2026-05-26(v0.5.12.post1 稳定补丁);v0.5.12 主体含 DeepSeek V4 合并
  • 可信度:⭐⭐⭐⭐⭐(官方 Release Changelog,含 PR 链接)
  • 工程价值:⭐⭐⭐⭐⭐
  • 核心新增内容(v0.5.12 主体): 1. DeepSeek V4 合并进入 main:SGLang v0.5.12 已合并 DeepSeek V4,带 cookbook recipes(调优部署命令) 2. HiSparse(CPU KV Offload):新增支持将不活跃的 KV cache offload 到 CPU 内存,可在同等 VRAM 条件下运行更大 batch 或更长上下文 3. TokenSpeed MLA Attention Backend(Blackwell SM100, FP8 KV Cache):全新 MLA(Multi-head Latent Attention)prefill/decode 内核,专门针对 NVIDIA Blackwell 架构,FP8 KV Cache 支持,低延迟 MLA serving 4. 新增模型支持:DeepSeek V4、Intern-S2-Preview、MiniCPM-V 4.6、Laguna-XS.2、Ring-2.6-1T、Gemma 4 MTP(含调优部署命令 cookbook)
  • Bug Fix(v0.5.12.post1 补丁)
  • DSV4 + EAGLE/MTP 在 disaggregation decode 模式下,约 2000 请求后崩溃(SW allocator assertion: recycled KV pages 保持 stale sliding-window mappings)→ 已修复
  • DSV4 NSA prefill context-parallel + disaggregation-mode prefill:启动时 scheduler crash → 已修复
  • DSV4 PD disaggregation + pipeline parallelism > 1:旧代码有 pp_size=1 assertion → 已解除
  • 工程意义
  • HiSparse 突破 VRAM 上限:此前所有推理引擎受 GPU 显存硬约束,HiSparse 使 70B+ 模型可在消费级或小显存 GPU 上运行
  • TokenSpeed MLA Blackwell 优化:代表 vLLM/SGLang 在新硬件架构上的持续投入方向
  • DeepSeek V4 合并:标志着 MoE + 稀疏注意力推理进入主流工程化阶段
  • 复现命令参考(Gemma 4 MTP cookbook):
  • SGLang 文档已提供各新模型的调优部署命令,建议直接查阅:https://docs.sglang.ai
  • 标签SGLang DeepSeek-V4 HiSparse CPU-Offload Blackwell MLA FP8 v0.5.12 Inference
  • 建议分类:LLM Engineering / Inference Framework
  • 后续行动:建议更新"推理引擎对比"主题页,补充 v0.5.12 新特性;追踪 DeepSeek V4 官方 benchmark 数据

条目E2:vLLM MRV2 — GB200 +56% 吞吐 vs A100 3500 tokens/s

  • 来源:Spheron Blog(https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks)
  • 发布日期:2026(持续更新)
  • 可信度:⭐⭐⭐⭐(Spheron 第三方基准测试,有测试环境说明)
  • 工程价值:⭐⭐⭐⭐
  • 核心量化数据
  • A100 80GB 上 vLLM:Llama 70B 约 3,500 tokens/s(对比 TGI 2,500 tokens/s)
  • GB200(vLLM MRV2):相同模型 +56% throughput 提升(对比旧 runner)
  • MRV2 = Model Runner V2,是 vLLM 2026 年的重大后端更新
  • llama.cpp on H100:4,500 tokens/s(CPU/边缘推理,特殊量化场景)
  • 与 SGLang 对比
  • SGLang 在 MoE / 结构化生成 / 长上下文场景优于 vLLM
  • vLLM 在 dense 模型高并发场景稳定
  • 工程意义:vLLM MRV2 将 GB200 的理论算力转化为真实生产收益,+56% 是在真实 batch 负载下的数据,非理论峰值
  • 标签vLLM MRV2 GB200 Benchmark H100 Throughput A100
  • 建议分类:LLM Engineering / Inference Benchmark
  • 后续行动:建议对照 vLLM 官方 benchmark 页面(vllm.ai)确认 MRV2 原始数据

条目E3:SGLang NSA — Blackwell 3x-5x 加速,精确 CLI 参数

  • 来源:Spheron Blog + LMSYS 官方博客(https://lmsys.org/blog/2025-09-29-deepseek-V32)
  • 可信度:⭐⭐⭐⭐⭐(LMSYS 是 SGLang 主导团队,Day-0 支持公告)
  • 工程价值:⭐⭐⭐⭐⭐
  • 核心性能数据
  • DeepSeek V3.2 NSA(Native Sparse Attention)在 Blackwell 上:3x-5x speedup
  • 启用参数:--nsa-prefill-backend trtllm --nsa-decode-backend trtllm
  • 对比 SGLang 传统 attention:NSA 在 128K 上下文时 attention FLOPs 减少约 98%(O(L²) → O(Lk),k=2048 固定)
  • 精确部署命令(DeepSeek V3.2)bash # TileLang prefill + aiter decode(生产推荐) SGLANG_NSA_FUSE_TOPK=false \ SGLANG_NSA_KV_CACHE_STORE_FP8=false \ SGLANG_NSA_USE_REAL_INDEXER=true \ SGLANG_NSA_USE_TILELANG_PREFILL=True \ python -m sglang.launch_server \ --model-path deepseek-ai/DeepSeek-V3.2-Exp \ --disable-cuda-graph --tp 8 \ --mem-fraction-static 0.85 --page-size 64 \ --nsa-prefill "tilelang" --nsa-decode "aiter"
  • Docker 镜像:docker pull lmsysorg/sglang:dsv32-rocm(AMD ROCm)
  • 架构原理
  • DeepSeek Sparse Attention(DSA)= Lightning Indexer(top-2048 token 选择)+ 细粒度 token 选择
  • K 固定为 2048 tokens,active compute KV footprint 恒定约 0.6 GB
  • 128K 上下文时密集注意力约需 180,000 TFLOPs,DSA 减少约 98% 计算量
  • 标签SGLang NSA DeepSeek-V3.2 Blackwell Sparse-Attention DSA TRT-LLM CLI
  • 建议分类:LLM Engineering / Long-Context Inference
  • 后续行动:交叉验证 DeepSeek V4 的 NSA 参数(v0.5.12 中合并);对比 vLLM DSA 实现差异

条目E4:arXiv 2605.04595 — KV Cache 队列论理与稳定性分析

  • 来源:arXiv(https://arxiv.org/abs/2605.04595)
  • 发布日期:2026(arXiv:2605.04595)
  • 可信度:⭐⭐⭐⭐⭐(arXiv 学术论文)
  • 工程价值:⭐⭐⭐(理论框架,工程落地需后续验证)
  • 核心内容
  • 问题:LLM 推理中 KV cache 内存约束下的调度稳定性
  • 方法:排队论(Queueing-Theoretic)框架,用于分析 KV cache 约束下 LLM 推理系统的稳定性
  • 关键洞察:KV cache 是 LLM 推理系统的核心瓶颈,内存溢出导致 in-flight 请求被 evict,浪费之前计算
  • 理论贡献:建立了 KV cache 约束下推理调度的数学模型,可用于评估调度算法稳定性边界
  • 工程意义:为生产级推理系统的容量规划提供理论工具,而非仅靠经验调参
  • 标签KV-Cache Queueing-Theory Scheduling arXiv LLM-Inference Memory
  • 建议分类:LLM Systems / Theory
  • 后续行动:追踪是否开源代码;与 vLLM/SGLang 实际调度策略对照

条目E5:arXiv 2504.11320 — WAIT 调度算法与 Nested WAIT

  • 来源:arXiv(https://arxiv.org/html/2504.11320v3)
  • 发布日期:2025(v3 更新)
  • 可信度:⭐⭐⭐⭐⭐(arXiv,有公式推导和算法描述)
  • 工程价值:⭐⭐⭐(算法有参考价值,但需工程实现验证)
  • 核心内容
  • 问题:LLM 推理中 GPU 调度与 KV cache 内生增长的联合优化
  • 方法:流体模型(Fluid Model)描述 equilibrium batch composition、内存需求、稳定区域
  • WAIT 算法:Waiting for Accumulated Inference Threshold — 针对已知输出长度的阈值 admission rule
  • Nested WAIT:扩展到未知输出长度,通过分段 decode-stage 调节请求推进
  • 核心指标:phase 对应 Stage 0(prompt embedding + KV cache 构建)
  • 与 vLLM Continuous Batching 的关系
  • WAIT 解决的是 batch 调度中的"何时接受新请求"问题
  • vLLM Continuous Batching 解决的是"如何组装异长请求"问题
  • 两者可互补
  • 标签Scheduling WAIT KV-Cache GPU-Scheduling arXiv Batching
  • 建议分类:LLM Systems / Inference Scheduling
  • 后续行动:检查是否有开源代码实现;与 SGLang RadixAttention 调度策略对比

三、丢弃条目(理由)

丢弃1:awesome-ai-agents-2026 系列(Zijian-Ni、caramaschiHG、ARUNAGIRINATHAN-K)

  • 丢弃理由:三个 GitHub 仓库均为"awesome"导航列表,本质是资源索引而非原始内容。无源码、无 benchmark、无命令、无可复现步骤。内容与 2026-06-14 afternoon 已收录的 awesome 列表高度重复。工程筛选价值低。
  • 类比:相当于收藏夹的收藏夹

丢弃2:ByteByteGo "Top AI GitHub Repositories in 2026"

  • 丢弃理由:Substack 来源,早间批次(2026-06-15-morning)已收录 ByteByteGo 同类分析。该文内容为 top-20 AI GitHub 仓库列表(langchain、OpenHands、MetaGPT、opencode 等),属于导航性质,无新工程数据。

丢弃3:Microsoft Build 2026 / MAI / Scout(OpenClaw 相关)

  • 丢弃理由:信息来自 awesome-ai-agents-2026 导航页二手引用,非一手来源。Microsoft Scout 基于 OpenClaw 的事实已在早间批次提及,此处无新工程细节。

四、AI HOT 精选(过去 24 小时)

行业动态(2026-06-14)

  1. OpenAI Partner Network — 投资 1.5 亿美元建立全球合作网络,设立 Select/Advanced/Elite 三级认证,目标 2026 年底前培训认证 30 万名顾问
  2. Anthropic 暂停在印度的新模型访问权限 — TechCrunch 报道,印科技界围绕此事展开讨论;Dario Amodei 在 IPO 前采访中透露内部模型 Mythos 有上千漏洞,称 AI 一到五年内将取代一半入门级白领工作

观点(2026-06-14)

  1. Gary Marcus:AI 监管被利益偏向 OpenAI/亚导航 — 白宫 AI 监管决策被指向 OpenAI、亚导航等企业施压,Gary Marcus 呼吁建立独立监管机构
  2. Satya Nadella:没有生态的前沿不稳定 — 微软 CEO 认为企业需同时构建人力资本(知识、判断、关系)与 token 资本(自有 AI 能力),真正机会在于建立人力资本与 token 资本复合增长的学习循环

五、工程要点提炼(可行动项)

🔴 立即可复现

  1. SGLang v0.5.12pip install sglang(附 cookbook recipes for Gemma 4 MTP、MiniCPM-V 4.6、DeepSeek V4)
  2. SGLang DeepSeek V3.2 NSA 部署:使用 LMSYS 官方精确 CLI 命令(见条目 E3)
  3. HiSparse CPU Offload:v0.5.12 新特性,可在小显存 GPU 上运行大 batch(需查阅 SGLang 文档具体参数)

🟡 待核验

  1. vLLM MRV2 +56% 数据:需对照 vllm.ai 官方 benchmark 原始数据
  2. WAIT/Nested WAIT 算法:检查 arXiv 2504.11320 是否有开源代码
  3. arXiv 2605.04595 排队论框架:检查是否有配套代码

🟢 值得追踪

  1. DeepSeek V4 NSA 在 SGLang v0.5.12 中的精确参数:cookbook recipes 链接待查
  2. TokenSpeed MLA Blackwell 性能数据:FP8 KV cache + SM100 的实测数字
  3. HiSparse vs vLLM PagedAttention offload 方案对比:两个框架都在解决同一工程问题

六、分类标签汇总

SGLang vLLM DeepSeek-V4 DeepSeek-V3.2 NSA DSA HiSparse KV-Cache Blackwell A100 GB200 MLA FP8 Inference Scheduling Batching arXiv Benchmark CLI MoE Long-Context


七、建议写入路径

  • 草稿路径/shared/research-kb/inbox/jay/2026-06-15-evening-engineering-filter.md(本文)
  • 建议主题页更新
  • topics/inference-engines-vllm-sglang.md(补充 v0.5.12 + MRV2 + NSA 数据)
  • topics/kv-cache-deepseek-sparse-attention.md(DSA O(L²)→O(Lk) 原理 + 精确命令)
  • topics/llm-scheduling-memory-management.md(WAIT + 排队论补充)
  • 建议精读
  • SGLang v0.5.12.post1 Release Notes(含 PR 链接)
  • arXiv 2605.04595(排队论框架)
  • arXiv 2504.11320(WAIT 算法 + 公式推导)
  • 建议审稿:SGLang NSA 部署命令(由有实际部署经验的人核验参数正确性)

Jay · 2026-06-15 · 工程筛选第 4 轮 · 晚间批次