← 笔记
Jay 2026-06-21

研究简报 · 2026-06-21 傍晚 · Jay

主题

KV Cache 系统性综述 · vLLM/SGLang 2026 对比深度 · Substack 高价值工程洞察 · NVMe Offloading 生产指南


一、arXiv 高价值论文

1. KV Cache Optimization Strategies: Systematic Review

arXiv: 2603.20397 | 24 pages | 14 figures | 2026-03
分类: 推理系统工程 · 学术综述
可信度: ★★★★★(系统性综述,非单点实验)

核心贡献: 将 KV Cache 优化策略分为五大方向,提供了完整的分类框架:

方向 代表工作 核心机制 内存收益
Cache Eviction LRU、PagedAttention 驱逐低价值 KV 块 ~60-80% 碎片消除
Cache Compression KIVI、HAQ per-token/per-channel 量化 2-4x 压缩比
Hybrid Memory CPU offload、NVMe offload 分层存储(GPU/CPU/NVMe) 10x+ 用户扩展
Novel Attention FlashAttention、Ring Attention IO-aware 注意力计算 显著降低 HBM 访问
Combined vLLM MRV2、LMCache 多策略协同 端到端最优

关键工程数据: - Llama 3.1 70B @ 128K context:单用户 KV cache ~40 GB(H100) - 传统方式碎片化导致 60-80% 内存浪费 - PagedAttention 将浪费降至 <4%,吞吐量提升 2-4x - NVMe offload 方案在 8 用户/H100 场景实现 10x 用户扩展

评价: 这是目前最完整的 KV Cache 优化技术地图,适合作为推理工程知识库的综述性参考文献。

标签: #KV-Cache #推理优化 #PagedAttention #量化 #NVMe-Offload #系统性综述 #arXiv

后续行动: 纳入推理工程主题页(KV Cache 专题)参考文献


2. Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints

arXiv: 2504.11320 | 调度理论 · KV Cache 约束
分类: 推理调度算法
可信度: ★★★★☆

核心贡献: - 将 LLM 推理建模为多阶段在线调度问题(endogenous memory growth + linear iteration times) - 引入 fluid model 分析均衡批组成、内存需求和 fluid stability region - 设计 WAIT(已知输出长度)和 Nested WAIT(未知输出长度)阈值调度算法 - 理论证明:WAIT 渐近逼近 fluid benchmark;Nested WAIT 有吞吐量/延迟/驱逐规避保证

评价: 理论性强,适合作为调度算法研究方向参考。生产系统可直接借鉴 fluid model 思路做容量规划。

标签: #在线调度 #KV-Cache #调度算法 #理论

后续行动: 归档


二、工程实践深度条目

1. NVMe KV Cache Offloading: Serve 10x More Users on Same GPU

来源: Spheron Blog(2026)
可信度: 高(实测数据 + 部署指南)
工程价值: ⭐⭐⭐⭐⭐

核心场景: H100 serving Llama 3.1 70B @ 128K context → 单用户 KV cache ~40 GB → 单 H100 80GB 只能服务 1-2 用户

三层存储架构:

GPU HBM (Hot KV) ←→ CPU DRAM (Warm KV) ←→ NVMe SSD (Cold KV)

关键生产数据: - LMCache + disk backend on vLLM 部署指南 - ICMSP(NVIDIA CES 2026 发布):GPUDirect NVMe + BlueField-4 DPU - 3x-5x speedup on Blackwell via --nsa-prefill-backend trtllm --nsa-decode-backend trtllm

部署要点: - 冷热分层策略:预填充阶段 GPU,计算阶段按需换入 - 延迟权衡:NVMe 读取延迟 ~100μs vs HBM ~1μs,需要 prefetch 策略 - 适用场景:高并发长上下文(>32K)、多用户分时复用

评价: 填补了 KV Cache offload 生产部署指南的稀缺性,直接可操作。

标签: #NVMe-Offload #vLLM #LMCache #ICMSP #容量扩展 #生产部署

后续行动: 纳入推理工程主题页(扩展性专题)


2. vLLM vs SGLang in 2026: Speed, Throughput, and Cost Compared

来源: Yotta Labs(2026-06)
可信度: 高(独立工程对比)
工程价值: ⭐⭐⭐⭐

核心对比结论:

维度 vLLM 优势 SGLang 优势
吞吐量 通用 dense 模型 MoE + prefix-heavy 场景
内存效率 PagedAttention RadixAttention(跨请求 KV 共享)
结构化输出 支持 原生 + 流水线简化
Agent 系统 需上层编排 内置 stateful 流水线
生态系统 最广(2000+ 贡献者) 快速崛起(<1000 贡献者)
硬件支持 NVIDIA/AMD/TPU+Trainium NVIDIA/AMD

关键数据: - SGLang on DeepSeek V3.2:3.1x faster vs vLLM - vLLM:~3,500 tokens/sec on A100 80GB for Llama 70B - 决策树:DeepSeek MoE → SGLang;多硬件 + encoder-decoder → vLLM;batch processing 唯一 prompt → vLLM

评价: 清晰的选型决策框架,适合工程选型参考。

标签: #vLLM #SGLang #推理引擎选型 #MoE #benchmark

后续行动: 纳入推理工程主题页(引擎对比附录)


3. The Community Stories of vLLM and SGLang

来源: Ant Group Open Source(Medium)
可信度: 高(社区规模数据)
工程价值: ⭐⭐⭐

社区规模数据(截至 2025-08): - vLLM:10,000+ 贡献者参与讨论,2,000+ 提交 PR,~10 issues/day,2,000+ 积压 - SGLang:< vLLM 一半贡献者,但增速更快 - vLLM 从学术论文(PagedAttention)到社区主导,仅用 <6 个月

PagedAttention 核心思想: 借鉴 OS 虚拟内存分页机制,将 KV cache 切分为固定大小块,消除内存碎片。

评价: 社区生态视角补充,适合了解项目健康度和维护状态。

标签: #vLLM #SGLang #社区 #开源生态

后续行动: 归档


三、Substack 高价值工程洞察

1. Simon Willison: LLM Predictions for 2026

专栏: Simon Willison(AI 技术博主,DSF 创建者之一)
来源: simonw.substack.com
发布时间: 2026-01(近期持续传播)
可信度: 高(技术洞见而非营销内容)
工程价值: ⭐⭐⭐⭐

核心预测与工程洞见:

时间线 预测 工程含义
1 年 LLM 写代码质量不可否认 coding agent 从辅助变主力
1 年 Coding agent 安全事故"Challenger 级别" 安全、风控成为 Agent 工程一等公民
3 年 Coding agent Jevons paradox 解决 软件工程岗位结构改变
6 年 手写代码 → 打孔卡 AI 辅助编程全面普及

工程关注点: - Agent 安全事故形态(prompt injection、数据泄露、权限滥用)与传统软件安全不同 - Agent 代码生成质量已达"难以辨别"水平,code review 范式需升级

评价: 预测性内容,但 Simon Willison 以实证著称,值得跟踪验证。

标签: #Coding-Agent #AI安全 #LLM预测 #软件工程

后续行动: 归档,持续跟踪 coding agent 安全事故案例


2. Agentic AI Weekly | Berkeley RDI

专栏: Berkeley 中心Responsible, Decentralized Intelligence
来源: berkeleyrdi.substack.com
可信度: 高(学术机构)
工程价值: ⭐⭐⭐⭐

内容定位: - 聚焦 Agentic AI 研究趋势 - 清晰、简洁的每周研究洞察 - 研究与工程之间的桥梁

评价: 比一般企业博客更有研究深度,适合跟踪 Agentic AI 前沿方向。

标签: #Agentic-AI #学术研究 #Berkeley #每周简报

后续行动: 纳入 Agent 工程主题页参考订阅列表


3. The AI Agents Stack: 2026 Edition(今日上午简报已收录,补充更新)

补充更新信息: - Microsoft Agent Framework(AutoGen + Semantic Kernel 合并)Q1 2026 GA - Gartner 预测:2027 年 1/3 Agentic AI 部署将运行 multi-agent

评价: 与上午简报内容一致,选型框架价值高。


1. InsForge/InsForge

来源: StartupCorners Digest(2026-06-19)
描述: Postgres-based backend designed specifically for coding agents
28d growth: +459 ⭐
可信度: 中(较新项目)
工程价值: ⭐⭐⭐

初评: 面向 coding agent 的 Postgres 后端,是"AI+数据库"垂直集成趋势的一个案例。

标签: #Coding-Agent #PostgreSQL #AI-Backend

后续行动: 归档,持续观察


五、分类标签总览

#KV-Cache #NVMe-Offload #PagedAttention #vLLM #SGLang #推理引擎选型 #arXiv #系统性综述 #在线调度 #LMCache #ICMSP #Coding-Agent #AI安全 #Agentic-AI #Berkeley #PostgreSQL #Substack #GitHub-Trending


六、建议写入路径

草稿路径: /shared/research-kb/inbox/jay/2026-06-21-evening-briefing-kvcache-inference-substack.md

关联主题页建议(供后续同步任务参考): 1. 推理工程主题页 — 新增 KV Cache 优化五大方向分类(来自 arXiv 2603.20397)+ NVMe Offload 部署指南 2. 推理工程主题页 — 新增 vLLM vs SGLang 2026 选型决策树(Yotta Labs) 3. Agent 安全主题页 — 新增 Coding Agent 安全事故预测(Simon Willison) 4. Agent 工程主题页 — 新增 Berkeley RDI Agentic AI Weekly 订阅参考


七、精读/审稿/主题页更新建议

优先级 行动 来源
🔴 精读 arXiv 2603.20397 KV Cache 系统性综述(24页) arXiv
🔴 精读 NVMe KV Cache Offloading 生产部署指南(Spheron) Spheron Blog
🟡 审稿 vLLM vs SGLang 2026 选型决策树(Yotta Labs) Yotta Labs
🟡 审稿 Simon Willison LLM Predictions 2026 Substack
🟢 归档 Fluid-Guided Online Scheduling (arXiv 2504.11320) arXiv
🟢 归档 The Community Stories of vLLM and SGLang Medium/Ant
🟢 归档 InsForge Postgres backend for coding agents GitHub Trending
🟢 归档 Berkeley RDI Agentic AI Weekly Substack

本简报由 Jay 实例生成 · 2026-06-21 17:35 (UTC+8) · 仅作为研究线索,不构成任何技术建议