研究简报 · 2026-06-21 傍晚 · Jay

主题

KV Cache 系统性综述 · vLLM/SGLang 2026 对比深度 · Substack 高价值工程洞察 · NVMe Offloading 生产指南

一、arXiv 高价值论文

1. KV Cache Optimization Strategies: Systematic Review

arXiv: 2603.20397 | 24 pages | 14 figures | 2026-03
分类： 推理系统工程 · 学术综述
可信度： ★★★★★（系统性综述，非单点实验）

核心贡献： 将 KV Cache 优化策略分为五大方向，提供了完整的分类框架：

方向	代表工作	核心机制	内存收益
Cache Eviction	LRU、PagedAttention	驱逐低价值 KV 块	~60-80% 碎片消除
Cache Compression	KIVI、HAQ	per-token/per-channel 量化	2-4x 压缩比
Hybrid Memory	CPU offload、NVMe offload	分层存储（GPU/CPU/NVMe）	10x+ 用户扩展
Novel Attention	FlashAttention、Ring Attention	IO-aware 注意力计算	显著降低 HBM 访问
Combined	vLLM MRV2、LMCache	多策略协同	端到端最优

关键工程数据： - Llama 3.1 70B @ 128K context：单用户 KV cache ~40 GB（H100） - 传统方式碎片化导致 60-80% 内存浪费 - PagedAttention 将浪费降至 <4%，吞吐量提升 2-4x - NVMe offload 方案在 8 用户/H100 场景实现 10x 用户扩展

评价： 这是目前最完整的 KV Cache 优化技术地图，适合作为推理工程知识库的综述性参考文献。

标签： #KV-Cache #推理优化 #PagedAttention #量化 #NVMe-Offload #系统性综述 #arXiv

后续行动： 纳入推理工程主题页（KV Cache 专题）参考文献

2. Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints

arXiv: 2504.11320 | 调度理论 · KV Cache 约束
分类： 推理调度算法
可信度： ★★★★☆

核心贡献： - 将 LLM 推理建模为多阶段在线调度问题（endogenous memory growth + linear iteration times） - 引入 fluid model 分析均衡批组成、内存需求和 fluid stability region - 设计 WAIT（已知输出长度）和 Nested WAIT（未知输出长度）阈值调度算法 - 理论证明：WAIT 渐近逼近 fluid benchmark；Nested WAIT 有吞吐量/延迟/驱逐规避保证

评价： 理论性强，适合作为调度算法研究方向参考。生产系统可直接借鉴 fluid model 思路做容量规划。

标签： #在线调度 #KV-Cache #调度算法 #理论

后续行动： 归档

二、工程实践深度条目

1. NVMe KV Cache Offloading: Serve 10x More Users on Same GPU

来源： Spheron Blog（2026）
可信度： 高（实测数据 + 部署指南）
工程价值： ⭐⭐⭐⭐⭐

核心场景： H100 serving Llama 3.1 70B @ 128K context → 单用户 KV cache ~40 GB → 单 H100 80GB 只能服务 1-2 用户

三层存储架构：

GPU HBM (Hot KV) ←→ CPU DRAM (Warm KV) ←→ NVMe SSD (Cold KV)

关键生产数据： - LMCache + disk backend on vLLM 部署指南 - ICMSP（NVIDIA CES 2026 发布）：GPUDirect NVMe + BlueField-4 DPU - 3x-5x speedup on Blackwell via --nsa-prefill-backend trtllm --nsa-decode-backend trtllm

部署要点： - 冷热分层策略：预填充阶段 GPU，计算阶段按需换入 - 延迟权衡：NVMe 读取延迟 ~100μs vs HBM ~1μs，需要 prefetch 策略 - 适用场景：高并发长上下文（>32K）、多用户分时复用

评价： 填补了 KV Cache offload 生产部署指南的稀缺性，直接可操作。

标签： #NVMe-Offload #vLLM #LMCache #ICMSP #容量扩展 #生产部署

后续行动： 纳入推理工程主题页（扩展性专题）

2. vLLM vs SGLang in 2026: Speed, Throughput, and Cost Compared

来源： Yotta Labs（2026-06）
可信度： 高（独立工程对比）
工程价值： ⭐⭐⭐⭐

核心对比结论：

维度	vLLM 优势	SGLang 优势
吞吐量	通用 dense 模型	MoE + prefix-heavy 场景
内存效率	PagedAttention	RadixAttention（跨请求 KV 共享）
结构化输出	支持	原生 + 流水线简化
Agent 系统	需上层编排	内置 stateful 流水线
生态系统	最广（2000+ 贡献者）	快速崛起（<1000 贡献者）
硬件支持	NVIDIA/AMD/TPU+Trainium	NVIDIA/AMD

关键数据： - SGLang on DeepSeek V3.2：3.1x faster vs vLLM - vLLM：~3,500 tokens/sec on A100 80GB for Llama 70B - 决策树：DeepSeek MoE → SGLang；多硬件 + encoder-decoder → vLLM；batch processing 唯一 prompt → vLLM

评价： 清晰的选型决策框架，适合工程选型参考。

标签： #vLLM #SGLang #推理引擎选型 #MoE #benchmark

后续行动： 纳入推理工程主题页（引擎对比附录）

3. The Community Stories of vLLM and SGLang

来源： Ant Group Open Source（Medium）
可信度： 高（社区规模数据）
工程价值： ⭐⭐⭐

社区规模数据（截至 2025-08）： - vLLM：10,000+ 贡献者参与讨论，2,000+ 提交 PR，~10 issues/day，2,000+ 积压 - SGLang：< vLLM 一半贡献者，但增速更快 - vLLM 从学术论文（PagedAttention）到社区主导，仅用 <6 个月

PagedAttention 核心思想： 借鉴 OS 虚拟内存分页机制，将 KV cache 切分为固定大小块，消除内存碎片。

评价： 社区生态视角补充，适合了解项目健康度和维护状态。

标签： #vLLM #SGLang #社区 #开源生态

后续行动： 归档

三、Substack 高价值工程洞察

1. Simon Willison: LLM Predictions for 2026

专栏： Simon Willison（AI 技术博主，DSF 创建者之一）
来源： simonw.substack.com
发布时间： 2026-01（近期持续传播）
可信度： 高（技术洞见而非营销内容）
工程价值： ⭐⭐⭐⭐

核心预测与工程洞见：

时间线	预测	工程含义
1 年	LLM 写代码质量不可否认	coding agent 从辅助变主力
1 年	Coding agent 安全事故"Challenger 级别"	安全、风控成为 Agent 工程一等公民
3 年	Coding agent Jevons paradox 解决	软件工程岗位结构改变
6 年	手写代码 → 打孔卡	AI 辅助编程全面普及

工程关注点： - Agent 安全事故形态（prompt injection、数据泄露、权限滥用）与传统软件安全不同 - Agent 代码生成质量已达"难以辨别"水平，code review 范式需升级

评价： 预测性内容，但 Simon Willison 以实证著称，值得跟踪验证。

标签： #Coding-Agent #AI安全 #LLM预测 #软件工程

后续行动： 归档，持续跟踪 coding agent 安全事故案例

2. Agentic AI Weekly | Berkeley RDI

专栏： Berkeley 中心Responsible, Decentralized Intelligence
来源： berkeleyrdi.substack.com
可信度： 高（学术机构）
工程价值： ⭐⭐⭐⭐

内容定位： - 聚焦 Agentic AI 研究趋势 - 清晰、简洁的每周研究洞察 - 研究与工程之间的桥梁

评价： 比一般企业博客更有研究深度，适合跟踪 Agentic AI 前沿方向。

标签： #Agentic-AI #学术研究 #Berkeley #每周简报

后续行动： 纳入 Agent 工程主题页参考订阅列表

3. The AI Agents Stack: 2026 Edition（今日上午简报已收录，补充更新）

补充更新信息： - Microsoft Agent Framework（AutoGen + Semantic Kernel 合并）Q1 2026 GA - Gartner 预测：2027 年 1/3 Agentic AI 部署将运行 multi-agent

评价： 与上午简报内容一致，选型框架价值高。

1. InsForge/InsForge

来源： StartupCorners Digest（2026-06-19）
描述： Postgres-based backend designed specifically for coding agents
28d growth： +459 ⭐
可信度： 中（较新项目）
工程价值： ⭐⭐⭐

初评： 面向 coding agent 的 Postgres 后端，是"AI+数据库"垂直集成趋势的一个案例。

标签： #Coding-Agent #PostgreSQL #AI-Backend

后续行动： 归档，持续观察

五、分类标签总览

#KV-Cache #NVMe-Offload #PagedAttention #vLLM #SGLang #推理引擎选型 #arXiv #系统性综述 #在线调度 #LMCache #ICMSP #Coding-Agent #AI安全 #Agentic-AI #Berkeley #PostgreSQL #Substack #GitHub-Trending

六、建议写入路径

草稿路径： /shared/research-kb/inbox/jay/2026-06-21-evening-briefing-kvcache-inference-substack.md

关联主题页建议（供后续同步任务参考）： 1. 推理工程主题页 — 新增 KV Cache 优化五大方向分类（来自 arXiv 2603.20397）+ NVMe Offload 部署指南 2. 推理工程主题页 — 新增 vLLM vs SGLang 2026 选型决策树（Yotta Labs） 3. Agent 安全主题页 — 新增 Coding Agent 安全事故预测（Simon Willison） 4. Agent 工程主题页 — 新增 Berkeley RDI Agentic AI Weekly 订阅参考

七、精读/审稿/主题页更新建议

优先级	行动	来源
🔴 精读	arXiv 2603.20397 KV Cache 系统性综述（24页）	arXiv
🔴 精读	NVMe KV Cache Offloading 生产部署指南（Spheron）	Spheron Blog
🟡 审稿	vLLM vs SGLang 2026 选型决策树（Yotta Labs）	Yotta Labs
🟡 审稿	Simon Willison LLM Predictions 2026	Substack
🟢 归档	Fluid-Guided Online Scheduling (arXiv 2504.11320)	arXiv
🟢 归档	The Community Stories of vLLM and SGLang	Medium/Ant
🟢 归档	InsForge Postgres backend for coding agents	GitHub Trending
🟢 归档	Berkeley RDI Agentic AI Weekly	Substack

本简报由 Jay 实例生成 · 2026-06-21 17:35 (UTC+8) · 仅作为研究线索，不构成任何技术建议