研究简报 · 2026-06-21 傍晚 · Jay
主题
KV Cache 系统性综述 · vLLM/SGLang 2026 对比深度 · Substack 高价值工程洞察 · NVMe Offloading 生产指南
一、arXiv 高价值论文
1. KV Cache Optimization Strategies: Systematic Review
arXiv: 2603.20397 | 24 pages | 14 figures | 2026-03
分类: 推理系统工程 · 学术综述
可信度: ★★★★★(系统性综述,非单点实验)
核心贡献: 将 KV Cache 优化策略分为五大方向,提供了完整的分类框架:
| 方向 | 代表工作 | 核心机制 | 内存收益 |
|---|---|---|---|
| Cache Eviction | LRU、PagedAttention | 驱逐低价值 KV 块 | ~60-80% 碎片消除 |
| Cache Compression | KIVI、HAQ | per-token/per-channel 量化 | 2-4x 压缩比 |
| Hybrid Memory | CPU offload、NVMe offload | 分层存储(GPU/CPU/NVMe) | 10x+ 用户扩展 |
| Novel Attention | FlashAttention、Ring Attention | IO-aware 注意力计算 | 显著降低 HBM 访问 |
| Combined | vLLM MRV2、LMCache | 多策略协同 | 端到端最优 |
关键工程数据: - Llama 3.1 70B @ 128K context:单用户 KV cache ~40 GB(H100) - 传统方式碎片化导致 60-80% 内存浪费 - PagedAttention 将浪费降至 <4%,吞吐量提升 2-4x - NVMe offload 方案在 8 用户/H100 场景实现 10x 用户扩展
评价: 这是目前最完整的 KV Cache 优化技术地图,适合作为推理工程知识库的综述性参考文献。
标签: #KV-Cache #推理优化 #PagedAttention #量化 #NVMe-Offload #系统性综述 #arXiv
后续行动: 纳入推理工程主题页(KV Cache 专题)参考文献
2. Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints
arXiv: 2504.11320 | 调度理论 · KV Cache 约束
分类: 推理调度算法
可信度: ★★★★☆
核心贡献: - 将 LLM 推理建模为多阶段在线调度问题(endogenous memory growth + linear iteration times) - 引入 fluid model 分析均衡批组成、内存需求和 fluid stability region - 设计 WAIT(已知输出长度)和 Nested WAIT(未知输出长度)阈值调度算法 - 理论证明:WAIT 渐近逼近 fluid benchmark;Nested WAIT 有吞吐量/延迟/驱逐规避保证
评价: 理论性强,适合作为调度算法研究方向参考。生产系统可直接借鉴 fluid model 思路做容量规划。
标签: #在线调度 #KV-Cache #调度算法 #理论
后续行动: 归档
二、工程实践深度条目
1. NVMe KV Cache Offloading: Serve 10x More Users on Same GPU
来源: Spheron Blog(2026)
可信度: 高(实测数据 + 部署指南)
工程价值: ⭐⭐⭐⭐⭐
核心场景: H100 serving Llama 3.1 70B @ 128K context → 单用户 KV cache ~40 GB → 单 H100 80GB 只能服务 1-2 用户
三层存储架构:
GPU HBM (Hot KV) ←→ CPU DRAM (Warm KV) ←→ NVMe SSD (Cold KV)
关键生产数据:
- LMCache + disk backend on vLLM 部署指南
- ICMSP(NVIDIA CES 2026 发布):GPUDirect NVMe + BlueField-4 DPU
- 3x-5x speedup on Blackwell via --nsa-prefill-backend trtllm --nsa-decode-backend trtllm
部署要点: - 冷热分层策略:预填充阶段 GPU,计算阶段按需换入 - 延迟权衡:NVMe 读取延迟 ~100μs vs HBM ~1μs,需要 prefetch 策略 - 适用场景:高并发长上下文(>32K)、多用户分时复用
评价: 填补了 KV Cache offload 生产部署指南的稀缺性,直接可操作。
标签: #NVMe-Offload #vLLM #LMCache #ICMSP #容量扩展 #生产部署
后续行动: 纳入推理工程主题页(扩展性专题)
2. vLLM vs SGLang in 2026: Speed, Throughput, and Cost Compared
来源: Yotta Labs(2026-06)
可信度: 高(独立工程对比)
工程价值: ⭐⭐⭐⭐
核心对比结论:
| 维度 | vLLM 优势 | SGLang 优势 |
|---|---|---|
| 吞吐量 | 通用 dense 模型 | MoE + prefix-heavy 场景 |
| 内存效率 | PagedAttention | RadixAttention(跨请求 KV 共享) |
| 结构化输出 | 支持 | 原生 + 流水线简化 |
| Agent 系统 | 需上层编排 | 内置 stateful 流水线 |
| 生态系统 | 最广(2000+ 贡献者) | 快速崛起(<1000 贡献者) |
| 硬件支持 | NVIDIA/AMD/TPU+Trainium | NVIDIA/AMD |
关键数据: - SGLang on DeepSeek V3.2:3.1x faster vs vLLM - vLLM:~3,500 tokens/sec on A100 80GB for Llama 70B - 决策树:DeepSeek MoE → SGLang;多硬件 + encoder-decoder → vLLM;batch processing 唯一 prompt → vLLM
评价: 清晰的选型决策框架,适合工程选型参考。
标签: #vLLM #SGLang #推理引擎选型 #MoE #benchmark
后续行动: 纳入推理工程主题页(引擎对比附录)
3. The Community Stories of vLLM and SGLang
来源: Ant Group Open Source(Medium)
可信度: 高(社区规模数据)
工程价值: ⭐⭐⭐
社区规模数据(截至 2025-08): - vLLM:10,000+ 贡献者参与讨论,2,000+ 提交 PR,~10 issues/day,2,000+ 积压 - SGLang:< vLLM 一半贡献者,但增速更快 - vLLM 从学术论文(PagedAttention)到社区主导,仅用 <6 个月
PagedAttention 核心思想: 借鉴 OS 虚拟内存分页机制,将 KV cache 切分为固定大小块,消除内存碎片。
评价: 社区生态视角补充,适合了解项目健康度和维护状态。
标签: #vLLM #SGLang #社区 #开源生态
后续行动: 归档
三、Substack 高价值工程洞察
1. Simon Willison: LLM Predictions for 2026
专栏: Simon Willison(AI 技术博主,DSF 创建者之一)
来源: simonw.substack.com
发布时间: 2026-01(近期持续传播)
可信度: 高(技术洞见而非营销内容)
工程价值: ⭐⭐⭐⭐
核心预测与工程洞见:
| 时间线 | 预测 | 工程含义 |
|---|---|---|
| 1 年 | LLM 写代码质量不可否认 | coding agent 从辅助变主力 |
| 1 年 | Coding agent 安全事故"Challenger 级别" | 安全、风控成为 Agent 工程一等公民 |
| 3 年 | Coding agent Jevons paradox 解决 | 软件工程岗位结构改变 |
| 6 年 | 手写代码 → 打孔卡 | AI 辅助编程全面普及 |
工程关注点: - Agent 安全事故形态(prompt injection、数据泄露、权限滥用)与传统软件安全不同 - Agent 代码生成质量已达"难以辨别"水平,code review 范式需升级
评价: 预测性内容,但 Simon Willison 以实证著称,值得跟踪验证。
标签: #Coding-Agent #AI安全 #LLM预测 #软件工程
后续行动: 归档,持续跟踪 coding agent 安全事故案例
2. Agentic AI Weekly | Berkeley RDI
专栏: Berkeley 中心Responsible, Decentralized Intelligence
来源: berkeleyrdi.substack.com
可信度: 高(学术机构)
工程价值: ⭐⭐⭐⭐
内容定位: - 聚焦 Agentic AI 研究趋势 - 清晰、简洁的每周研究洞察 - 研究与工程之间的桥梁
评价: 比一般企业博客更有研究深度,适合跟踪 Agentic AI 前沿方向。
标签: #Agentic-AI #学术研究 #Berkeley #每周简报
后续行动: 纳入 Agent 工程主题页参考订阅列表
3. The AI Agents Stack: 2026 Edition(今日上午简报已收录,补充更新)
补充更新信息: - Microsoft Agent Framework(AutoGen + Semantic Kernel 合并)Q1 2026 GA - Gartner 预测:2027 年 1/3 Agentic AI 部署将运行 multi-agent
评价: 与上午简报内容一致,选型框架价值高。
四、GitHub Trending 新增条目
1. InsForge/InsForge
来源: StartupCorners Digest(2026-06-19)
描述: Postgres-based backend designed specifically for coding agents
28d growth: +459 ⭐
可信度: 中(较新项目)
工程价值: ⭐⭐⭐
初评: 面向 coding agent 的 Postgres 后端,是"AI+数据库"垂直集成趋势的一个案例。
标签: #Coding-Agent #PostgreSQL #AI-Backend
后续行动: 归档,持续观察
五、分类标签总览
#KV-Cache #NVMe-Offload #PagedAttention #vLLM #SGLang #推理引擎选型 #arXiv #系统性综述 #在线调度 #LMCache #ICMSP #Coding-Agent #AI安全 #Agentic-AI #Berkeley #PostgreSQL #Substack #GitHub-Trending
六、建议写入路径
草稿路径: /shared/research-kb/inbox/jay/2026-06-21-evening-briefing-kvcache-inference-substack.md
关联主题页建议(供后续同步任务参考): 1. 推理工程主题页 — 新增 KV Cache 优化五大方向分类(来自 arXiv 2603.20397)+ NVMe Offload 部署指南 2. 推理工程主题页 — 新增 vLLM vs SGLang 2026 选型决策树(Yotta Labs) 3. Agent 安全主题页 — 新增 Coding Agent 安全事故预测(Simon Willison) 4. Agent 工程主题页 — 新增 Berkeley RDI Agentic AI Weekly 订阅参考
七、精读/审稿/主题页更新建议
| 优先级 | 行动 | 来源 |
|---|---|---|
| 🔴 精读 | arXiv 2603.20397 KV Cache 系统性综述(24页) | arXiv |
| 🔴 精读 | NVMe KV Cache Offloading 生产部署指南(Spheron) | Spheron Blog |
| 🟡 审稿 | vLLM vs SGLang 2026 选型决策树(Yotta Labs) | Yotta Labs |
| 🟡 审稿 | Simon Willison LLM Predictions 2026 | Substack |
| 🟢 归档 | Fluid-Guided Online Scheduling (arXiv 2504.11320) | arXiv |
| 🟢 归档 | The Community Stories of vLLM and SGLang | Medium/Ant |
| 🟢 归档 | InsForge Postgres backend for coding agents | GitHub Trending |
| 🟢 归档 | Berkeley RDI Agentic AI Weekly | Substack |
本简报由 Jay 实例生成 · 2026-06-21 17:35 (UTC+8) · 仅作为研究线索,不构成任何技术建议