研究知识库草稿 · Jay · 2026-06-15 晚间批次(工程筛选)
本次主题
晚间工程二次筛选(2026-06-15):推理引擎 v0.5.12.post1 最新动态 + DeepSeek V4/V3.2 NSA 稀疏注意力实战工程数据 + arXiv KV Cache 调度理论 + 推理引擎选型量化指标
一、工程筛选结论汇总
| 条目 | 来源 | 真实性 | 复现价值 | 最终决策 |
|---|---|---|---|---|
| SGLang v0.5.12.post1 + DeepSeek V4 | GitHub Changelog / Safety CLI | ✅ 高(官方 changelog) | ⭐⭐⭐⭐⭐ | 保留 — 重大更新 |
| SGLang HiSparse CPU KV Offload | SGLang v0.5.12 Changelog | ✅ 高 | ⭐⭐⭐⭐⭐ | 保留 — 内存扩展工程方案 |
| TokenSpeed MLA Blackwell FP8 Backend | SGLang v0.5.12 Changelog | ✅ 高 | ⭐⭐⭐⭐ | 保留 — 新硬件优化路径 |
| vLLM MRV2: GB200 +56% 吞吐 | Spheron Blog | ✅ 中高 | ⭐⭐⭐⭐ | 保留 — 量化对比数据 |
| SGLang NSA 3x-5x Blackwell 加速 | Spheron Blog / LMSYS | ✅ 高 | ⭐⭐⭐⭐⭐ | 保留 — 精确 CLI 参数 |
| DeepSeek V3.2 DSA O(L²)→O(Lk) 原理 | Spheron Blog / LMSYS | ✅ 高 | ⭐⭐⭐⭐ | 保留 — 架构洞察 |
| arXiv 2605.04595 KV Cache 队列理论 | arXiv | ✅ 高(arXiv 2026) | ⭐⭐⭐ | 保留 — 理论深度 |
| arXiv 2504.11320 WAIT 调度算法 | arXiv | ✅ 高 | ⭐⭐⭐ | 保留 — 调度算法可参考 |
| awesome-ai-agents-2026 Zijian-Ni | GitHub | ✅ 中 | ⭐⭐⭐ | 丢弃 — 仅为导航列表,无新内容 |
| ByteByteGo Top AI GitHub Repos | Substack | ✅ 中 | ⭐⭐⭐ | 丢弃 — 早间批次已收录 ByteByteGo |
| 各大 awesome-ai-agents 2026 列表 | GitHub | ✅ 中 | ⭐⭐ | 丢弃 — 重复导航资源 |
二、保留条目(高价值)
条目E1:SGLang v0.5.12.post1 — DeepSeek V4 合并 + HiSparse CPU Offload
- 来源:GitHub SGLang Changelog(Safety CLI 数据源)| https://github.com/sgl-project/sglang/releases/tag/v0.5.12.post1
- 发布日期:2026-05-26(v0.5.12.post1 稳定补丁);v0.5.12 主体含 DeepSeek V4 合并
- 可信度:⭐⭐⭐⭐⭐(官方 Release Changelog,含 PR 链接)
- 工程价值:⭐⭐⭐⭐⭐
- 核心新增内容(v0.5.12 主体): 1. DeepSeek V4 合并进入 main:SGLang v0.5.12 已合并 DeepSeek V4,带 cookbook recipes(调优部署命令) 2. HiSparse(CPU KV Offload):新增支持将不活跃的 KV cache offload 到 CPU 内存,可在同等 VRAM 条件下运行更大 batch 或更长上下文 3. TokenSpeed MLA Attention Backend(Blackwell SM100, FP8 KV Cache):全新 MLA(Multi-head Latent Attention)prefill/decode 内核,专门针对 NVIDIA Blackwell 架构,FP8 KV Cache 支持,低延迟 MLA serving 4. 新增模型支持:DeepSeek V4、Intern-S2-Preview、MiniCPM-V 4.6、Laguna-XS.2、Ring-2.6-1T、Gemma 4 MTP(含调优部署命令 cookbook)
- Bug Fix(v0.5.12.post1 补丁):
- DSV4 + EAGLE/MTP 在 disaggregation decode 模式下,约 2000 请求后崩溃(SW allocator assertion: recycled KV pages 保持 stale sliding-window mappings)→ 已修复
- DSV4 NSA prefill context-parallel + disaggregation-mode prefill:启动时 scheduler crash → 已修复
- DSV4 PD disaggregation + pipeline parallelism > 1:旧代码有
pp_size=1assertion → 已解除 - 工程意义:
- HiSparse 突破 VRAM 上限:此前所有推理引擎受 GPU 显存硬约束,HiSparse 使 70B+ 模型可在消费级或小显存 GPU 上运行
- TokenSpeed MLA Blackwell 优化:代表 vLLM/SGLang 在新硬件架构上的持续投入方向
- DeepSeek V4 合并:标志着 MoE + 稀疏注意力推理进入主流工程化阶段
- 复现命令参考(Gemma 4 MTP cookbook):
- SGLang 文档已提供各新模型的调优部署命令,建议直接查阅:https://docs.sglang.ai
- 标签:
SGLangDeepSeek-V4HiSparseCPU-OffloadBlackwellMLAFP8v0.5.12Inference - 建议分类:LLM Engineering / Inference Framework
- 后续行动:建议更新"推理引擎对比"主题页,补充 v0.5.12 新特性;追踪 DeepSeek V4 官方 benchmark 数据
条目E2:vLLM MRV2 — GB200 +56% 吞吐 vs A100 3500 tokens/s
- 来源:Spheron Blog(https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks)
- 发布日期:2026(持续更新)
- 可信度:⭐⭐⭐⭐(Spheron 第三方基准测试,有测试环境说明)
- 工程价值:⭐⭐⭐⭐
- 核心量化数据:
- A100 80GB 上 vLLM:Llama 70B 约 3,500 tokens/s(对比 TGI 2,500 tokens/s)
- GB200(vLLM MRV2):相同模型 +56% throughput 提升(对比旧 runner)
- MRV2 = Model Runner V2,是 vLLM 2026 年的重大后端更新
- llama.cpp on H100:4,500 tokens/s(CPU/边缘推理,特殊量化场景)
- 与 SGLang 对比:
- SGLang 在 MoE / 结构化生成 / 长上下文场景优于 vLLM
- vLLM 在 dense 模型高并发场景稳定
- 工程意义:vLLM MRV2 将 GB200 的理论算力转化为真实生产收益,+56% 是在真实 batch 负载下的数据,非理论峰值
- 标签:
vLLMMRV2GB200BenchmarkH100ThroughputA100 - 建议分类:LLM Engineering / Inference Benchmark
- 后续行动:建议对照 vLLM 官方 benchmark 页面(vllm.ai)确认 MRV2 原始数据
条目E3:SGLang NSA — Blackwell 3x-5x 加速,精确 CLI 参数
- 来源:Spheron Blog + LMSYS 官方博客(https://lmsys.org/blog/2025-09-29-deepseek-V32)
- 可信度:⭐⭐⭐⭐⭐(LMSYS 是 SGLang 主导团队,Day-0 支持公告)
- 工程价值:⭐⭐⭐⭐⭐
- 核心性能数据:
- DeepSeek V3.2 NSA(Native Sparse Attention)在 Blackwell 上:3x-5x speedup
- 启用参数:
--nsa-prefill-backend trtllm --nsa-decode-backend trtllm - 对比 SGLang 传统 attention:NSA 在 128K 上下文时 attention FLOPs 减少约 98%(O(L²) → O(Lk),k=2048 固定)
- 精确部署命令(DeepSeek V3.2):
bash # TileLang prefill + aiter decode(生产推荐) SGLANG_NSA_FUSE_TOPK=false \ SGLANG_NSA_KV_CACHE_STORE_FP8=false \ SGLANG_NSA_USE_REAL_INDEXER=true \ SGLANG_NSA_USE_TILELANG_PREFILL=True \ python -m sglang.launch_server \ --model-path deepseek-ai/DeepSeek-V3.2-Exp \ --disable-cuda-graph --tp 8 \ --mem-fraction-static 0.85 --page-size 64 \ --nsa-prefill "tilelang" --nsa-decode "aiter" - Docker 镜像:
docker pull lmsysorg/sglang:dsv32-rocm(AMD ROCm) - 架构原理:
- DeepSeek Sparse Attention(DSA)= Lightning Indexer(top-2048 token 选择)+ 细粒度 token 选择
- K 固定为 2048 tokens,active compute KV footprint 恒定约 0.6 GB
- 128K 上下文时密集注意力约需 180,000 TFLOPs,DSA 减少约 98% 计算量
- 标签:
SGLangNSADeepSeek-V3.2BlackwellSparse-AttentionDSATRT-LLMCLI - 建议分类:LLM Engineering / Long-Context Inference
- 后续行动:交叉验证 DeepSeek V4 的 NSA 参数(v0.5.12 中合并);对比 vLLM DSA 实现差异
条目E4:arXiv 2605.04595 — KV Cache 队列论理与稳定性分析
- 来源:arXiv(https://arxiv.org/abs/2605.04595)
- 发布日期:2026(arXiv:2605.04595)
- 可信度:⭐⭐⭐⭐⭐(arXiv 学术论文)
- 工程价值:⭐⭐⭐(理论框架,工程落地需后续验证)
- 核心内容:
- 问题:LLM 推理中 KV cache 内存约束下的调度稳定性
- 方法:排队论(Queueing-Theoretic)框架,用于分析 KV cache 约束下 LLM 推理系统的稳定性
- 关键洞察:KV cache 是 LLM 推理系统的核心瓶颈,内存溢出导致 in-flight 请求被 evict,浪费之前计算
- 理论贡献:建立了 KV cache 约束下推理调度的数学模型,可用于评估调度算法稳定性边界
- 工程意义:为生产级推理系统的容量规划提供理论工具,而非仅靠经验调参
- 标签:
KV-CacheQueueing-TheorySchedulingarXivLLM-InferenceMemory - 建议分类:LLM Systems / Theory
- 后续行动:追踪是否开源代码;与 vLLM/SGLang 实际调度策略对照
条目E5:arXiv 2504.11320 — WAIT 调度算法与 Nested WAIT
- 来源:arXiv(https://arxiv.org/html/2504.11320v3)
- 发布日期:2025(v3 更新)
- 可信度:⭐⭐⭐⭐⭐(arXiv,有公式推导和算法描述)
- 工程价值:⭐⭐⭐(算法有参考价值,但需工程实现验证)
- 核心内容:
- 问题:LLM 推理中 GPU 调度与 KV cache 内生增长的联合优化
- 方法:流体模型(Fluid Model)描述 equilibrium batch composition、内存需求、稳定区域
- WAIT 算法:Waiting for Accumulated Inference Threshold — 针对已知输出长度的阈值 admission rule
- Nested WAIT:扩展到未知输出长度,通过分段 decode-stage 调节请求推进
- 核心指标:phase 对应 Stage 0(prompt embedding + KV cache 构建)
- 与 vLLM Continuous Batching 的关系:
- WAIT 解决的是 batch 调度中的"何时接受新请求"问题
- vLLM Continuous Batching 解决的是"如何组装异长请求"问题
- 两者可互补
- 标签:
SchedulingWAITKV-CacheGPU-SchedulingarXivBatching - 建议分类:LLM Systems / Inference Scheduling
- 后续行动:检查是否有开源代码实现;与 SGLang RadixAttention 调度策略对比
三、丢弃条目(理由)
丢弃1:awesome-ai-agents-2026 系列(Zijian-Ni、caramaschiHG、ARUNAGIRINATHAN-K)
- 丢弃理由:三个 GitHub 仓库均为"awesome"导航列表,本质是资源索引而非原始内容。无源码、无 benchmark、无命令、无可复现步骤。内容与 2026-06-14 afternoon 已收录的 awesome 列表高度重复。工程筛选价值低。
- 类比:相当于收藏夹的收藏夹
丢弃2:ByteByteGo "Top AI GitHub Repositories in 2026"
- 丢弃理由:Substack 来源,早间批次(2026-06-15-morning)已收录 ByteByteGo 同类分析。该文内容为 top-20 AI GitHub 仓库列表(langchain、OpenHands、MetaGPT、opencode 等),属于导航性质,无新工程数据。
丢弃3:Microsoft Build 2026 / MAI / Scout(OpenClaw 相关)
- 丢弃理由:信息来自 awesome-ai-agents-2026 导航页二手引用,非一手来源。Microsoft Scout 基于 OpenClaw 的事实已在早间批次提及,此处无新工程细节。
四、AI HOT 精选(过去 24 小时)
行业动态(2026-06-14)
- OpenAI Partner Network — 投资 1.5 亿美元建立全球合作网络,设立 Select/Advanced/Elite 三级认证,目标 2026 年底前培训认证 30 万名顾问
- Anthropic 暂停在印度的新模型访问权限 — TechCrunch 报道,印科技界围绕此事展开讨论;Dario Amodei 在 IPO 前采访中透露内部模型 Mythos 有上千漏洞,称 AI 一到五年内将取代一半入门级白领工作
观点(2026-06-14)
- Gary Marcus:AI 监管被利益偏向 OpenAI/亚导航 — 白宫 AI 监管决策被指向 OpenAI、亚导航等企业施压,Gary Marcus 呼吁建立独立监管机构
- Satya Nadella:没有生态的前沿不稳定 — 微软 CEO 认为企业需同时构建人力资本(知识、判断、关系)与 token 资本(自有 AI 能力),真正机会在于建立人力资本与 token 资本复合增长的学习循环
五、工程要点提炼(可行动项)
🔴 立即可复现
- SGLang v0.5.12:
pip install sglang(附 cookbook recipes for Gemma 4 MTP、MiniCPM-V 4.6、DeepSeek V4) - SGLang DeepSeek V3.2 NSA 部署:使用 LMSYS 官方精确 CLI 命令(见条目 E3)
- HiSparse CPU Offload:v0.5.12 新特性,可在小显存 GPU 上运行大 batch(需查阅 SGLang 文档具体参数)
🟡 待核验
- vLLM MRV2 +56% 数据:需对照 vllm.ai 官方 benchmark 原始数据
- WAIT/Nested WAIT 算法:检查 arXiv 2504.11320 是否有开源代码
- arXiv 2605.04595 排队论框架:检查是否有配套代码
🟢 值得追踪
- DeepSeek V4 NSA 在 SGLang v0.5.12 中的精确参数:cookbook recipes 链接待查
- TokenSpeed MLA Blackwell 性能数据:FP8 KV cache + SM100 的实测数字
- HiSparse vs vLLM PagedAttention offload 方案对比:两个框架都在解决同一工程问题
六、分类标签汇总
SGLang vLLM DeepSeek-V4 DeepSeek-V3.2 NSA DSA HiSparse KV-Cache Blackwell A100 GB200 MLA FP8 Inference Scheduling Batching arXiv Benchmark CLI MoE Long-Context
七、建议写入路径
- 草稿路径:
/shared/research-kb/inbox/jay/2026-06-15-evening-engineering-filter.md(本文) - 建议主题页更新:
topics/inference-engines-vllm-sglang.md(补充 v0.5.12 + MRV2 + NSA 数据)topics/kv-cache-deepseek-sparse-attention.md(DSA O(L²)→O(Lk) 原理 + 精确命令)topics/llm-scheduling-memory-management.md(WAIT + 排队论补充)- 建议精读:
- SGLang v0.5.12.post1 Release Notes(含 PR 链接)
- arXiv 2605.04595(排队论框架)
- arXiv 2504.11320(WAIT 算法 + 公式推导)
- 建议审稿:SGLang NSA 部署命令(由有实际部署经验的人核验参数正确性)
Jay · 2026-06-15 · 工程筛选第 4 轮 · 晚间批次