知识库草稿：KV Cache 系统工程 · Inference Stack 商业化 · ChromaDB 安全警报

实例： Jay | 日期： 2026-06-11 傍晚轮次 检索范围： arXiv · Substack（The AI Engineer / The Sequence / adlrocha）· CSA Labs · Spheron · Hugging Face

一、KV Cache 系统工程：新论文三连（arXiv 2026）

1. AsymCache：GPU Kernel 感知 KV Cache 驱逐策略

来源： arXiv:2606.02964v1（2026）
标题： "Multi-Segment Attention: Enabling Efficient KV-Cache Management for Faster Large Language Model Serving"
链接： https://arxiv.org/html/2606.02964v1
可信度： 高（学术论文，有实测数据，与 GPU kernel 行为联合设计）
核心问题： 现有 KV cache 驱逐策略（基于访问频率或位置）没有考虑不同 KV 块如何影响 GPU attention kernel 的执行效率
核心贡献（AsymCache）： 1. Multi-Segment Attention (MSA)：高效处理非连续 KV 上下文 2. 联合优化驱逐策略：同时优化 cache hit rate 和位置感知重计算成本 3. 自适应 chunking scheduler：提高硬件利用率
性能数据：
TTFT（Time To First Token）降低 1.90–2.03×
TPOT（Time Per Output Token）降低 1.62–1.71×
集成到 Continuum agent serving system 后，平均 job latency 降低 18.1%
工程意义： 首个将 GPU attention kernel 行为纳入 cache eviction 决策的设计；比通用 LRU 方法更有硬件感知性
评价： 适合作为 agent serving 系统（如 Continuum）调优的参考架构
标签： kv-cache gpu-kernel eviction-policy inference-systems arXiv asymcache

2. DualPath：打破 Agentic LLM 推理的存储带宽瓶颈

来源： arXiv:2602.21548v2（2026）
链接： https://arxiv.org/html/2602.21548v2
可信度： 高（针对 disaggregated 架构的系统设计论文）
核心问题： 多轮 agentic LLM 推理的性能瓶颈已从计算转向 KV-Cache 存储 I/O；在 disaggregated 架构中，prefill 引擎的存储 NIC 带宽饱和，而 decode 引擎的存储 NIC 闲置——严重的结构性不均衡
核心设计：DualPath 双路径 KV-Cache 加载
传统路径：storage → prefill engine
新增路径：storage → decode engine → RDMA → prefill engine（绕过网络拥塞）
全局调度器动态平衡 prefill/decode 引擎负载
性能数据： 离线推理吞吐量提升最高 1.87×
工程意义： disaggregated 推理架构（分离 prefill/decode）的必读设计；国内 Tenstor/Hanguang 等 NPU 推理云可参考此双路径思路
标签： kv-cache disaggregated-inference storage-bandwidth dualpath inference-systems

3. Tutti：让 SSD 后备 KV Cache 成为长上下文生产方案

来源： arXiv:2605.03375（2026）
链接： https://arxiv.org/html/2605.03375
可信度： 高（系统设计 + 实测，针对 NVMe SSD I/O 效率问题）
核心问题： GPU HBM + CPU DRAM 不足以容纳长上下文（1M+ token）KV cache；SSD 方案因碎片化小 I/O 导致 GDS（GPU Direct Storage）性能严重下降
核心设计：GPU-Centric KV Cache Object Store
GPU 原生对象抽象（从 critical I/O 控制路径中解耦）
两层架构：HBM-SSD
饱和 NVMe SSD 带宽，将 GPU stall 降至接近零
关键数据： 与 GDS-enabled LMCache 相比，Tutti 推理性能接近 DRAM-backed LMCache（几乎无损）
工程意义： 长上下文（1M+ token）生产部署的核心基础设施方案；比纯 HBM 扩展成本低一个数量级
标签： kv-cache ssd-backed long-context inference-systems tutti nvme

4. KV Cache 优化全景综述（arXiv 2603.20397v1）

来源： arXiv:2603.20397v1（24 页系统性综述）
链接： https://arxiv.org/html/2603.20397v1
可信度： 高（peer-reviewed，5 大方向系统梳理）
五大方向分类： 1. Cache Eviction：动态驱逐（Heuristic-based 或 Learning-based） 2. Cache Compression：量化/稀疏化 KV 表示 3. Hybrid Memory：HBM+DRAM 分层（如 TTKV） 4. Novel Attention：FlashAttention 等新机制降低缓存需求 5. Combination：多策略联合
评价： KV cache 优化技术的完整地图，适合作为推理优化技术选型的基础索引；已在 2026-06-11-database-backend-cloudnative-inference.md 收录，此处补充推荐理由
标签： kv-cache survey inference-optimization llm

二、Inference Stack 商业化：vLLM 和 SGLang 估值爆发

5. The Sequence：Inference Stack 已经成为 AI 主导权争夺战

来源： The Sequence（thesequence.substack.com）· AI of the Week #797
发布时间： 2026-01 月末
链接： https://thesequence.substack.com/p/the-sequence-ai-of-the-week-797-the
可信度： 高（行业深度分析，引用具体融资金额和轮次）
核心事件（2026 年 1 月最后一周，AI 基础设施史上最重要的一周之一）： 1. Inferact（vLLM 商业实体）：$150M seed，A16z + Lightspeed 领投，估值 $800M 2. RadixArk（SGLang 商业实体）：$400M 估值，Accel 领投
核心论点： "LLM 的操作系统"——管理内存、调度、内核的层次——现在成为 AI 主导权争夺的主战场
行业意义： 推理引擎从学术开源项目升级为独立商业赛道；企业选型时需要考虑供应商锁定 vs. 支持生态的权衡
评价： 帮助理解为什么 vLLM/SGLang 在 2026 年受到如此多的生产关注；是推理引擎选型商业考量的重要背景
标签： inference-stack vllm sglang commercialization venture-capital substack

6. The AI Engineer：四大推理引擎工程对比实战手册

来源： The AI Engineer（theaiengineer.substack.com）· Paolo Perrone
发布时间： 2026-04
链接： https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt
可信度： 高（工程实战对比，含具体 benchmark 数字和选型决策树）
四引擎核心定位（2026 终局判断）：

引擎	核心机制	最佳场景	主要局限
Ollama	零配置本地运行	单用户开发、CI、隐私敏感场景	无并发优化，5 用户即瓶颈
vLLM	PagedAttention（GPU 内存分页管理）	生产默认选项，多硬件支持	高并发下 TTFT 最差
SGLang	RadixAttention（共享前缀 KV cache 复用）	多轮对话、共享上下文 RAG/Agent	无共享前缀时无优势
TensorRT-LLM	NVIDIA 硬件极致优化（CUDA 图编译）	长期固定模型的生产部署	1-2 周编译时间，NVIDIA 锁定
TGI	—	—	正式进入维护模式，HuggingFace 推荐迁移至 vLLM/SGLang

关键实测数据（Llama 3.3 70B / H100）：
SGLang vs vLLM：共享前缀场景吞吐量 +29%，输出 token 生成速度快 2×
TensorRT-LLM on Blackwell：Llama 4 Maverick 达到 1,000 tokens/s
TensorRT-LLM on RTX 4090：比 llama.cpp 快 70%（完整利用 512 Tensor Cores 和 1000 GB/s 内存带宽）
vLLM 内存浪费降至 <4%（GPU 可承载并发用户数大幅提升）
TGI：在同一硬件上仅实现 68-74% 利用率
选型决策树（工程实操）： 1. 单用户 / 本地开发 → Ollama 2. 生产多用户 / 多硬件 → vLLM（起点） 3. 多轮对话 / 共享前缀 RAG / Agent → SGLang 4. 固定模型 / 极致性能 / NVIDIA 独占 → TensorRT-LLM 5. 当前用 TGI → 立即启动迁移 vLLM/SGLang
评价： 目前最完整的四引擎工程选型指南；决策树可直接用于架构评审；TGI 维护模式声明是 2026 年重要警讯
标签： vllm sglang tensorrt-llm ollama TGI inference-engine production selection-guide

7. adlrocha：本地 LLM 推理优化全景（注意力机制 → 预测解码 → 软硬协同）

来源： adlrocha Substack（adlrocha.substack.com）
发布时间： 2026-05-17
链接： https://adlrocha.substack.com
可信度： 高（工程优化系列博客，作者有深度积累）
覆盖方向：
注意力机制优化（FlashAttention 系谱）
预测解码（Speculative Decoding）原理与工程权衡
软件-模型-硬件协同设计实践
评价： 本地推理优化（edge / on-premise）的系统性梳理；适合作为推理优化知识体系的补充入口
标签： local-inference attention-mechanisms speculative-decoding software-hardware-co-design

三、关键安全警报（已知高优先级延续）

8. ChromaDB CVE-2026-45829：未认证 RCE（已知，已在 `agent-security` 草稿记录）

⚠️ 已在 2026-06-11-agent-security-llm-inference-engineering.md 中详细记录，此处仅做引用确认 - 影响：Python FastAPI server，~1,300 万月 pip 下载 - 缓解：迁移 Rust server；网络隔离 Python FastAPI server - 来源：CSA Labs（labs.cloudsecurityalliance.org）

四、分类标签

kv-cache
asymcache
dualpath
tutti
ssd-backed-kv-cache
long-context-inference
disaggregated-inference
inference-systems
inference-engine
vllm
sglang
tensorrt-llm
ollama
TGI-maintenance-mode
inference-stack-commercialization
radixattention
pagedattention
gpu-kernel
eviction-policy
storage-bandwidth
substack
arxiv

五、本次高价值发现（TOP 3）

优先级	发现	来源	工程行动
⭐⭐⭐⭐⭐	AsymCache（TTFT 2× / TPOT 1.7×）	arXiv 2606.02964	评估 GPU kernel 感知 cache eviction；对比 vLLM LRU 实现
⭐⭐⭐⭐⭐	Tutti SSD KV cache（GPU stall 接近零）	arXiv 2605.03375	长上下文（1M+）生产部署必读；评估 NVMe 分层方案
⭐⭐⭐⭐	四大引擎选型决策树（含 TGI 停维声明）	The AI Engineer Substack	用于下次架构评审；TGI 迁移检查

六、建议写入路径

/shared/research-kb/inbox/jay/2026-06-11-kv-cache-inference-systems-eviction-security.md  ✅ 本文件

七、与已有草稿的关系

已有草稿	关系	说明
`database-backend-cloudnative-inference.md`	互补	该文已收录 KV cache 论文（KVP、TTKV、WAIT/Nested WAIT）；本文新增 AsymCache、DualPath、Tutti 及 Substack 工程洞察
`agent-security-llm-inference-engineering.md`	引用	ChromaDB CVE 在两处均提及；已合并，无重复
`inference-benchmark-engineering.md`	互补	该文聚焦 benchmark methodology；本文聚焦 KV cache 系统设计与工程选型

八、后续精读 / 审稿建议

优先级	类型	内容	说明
🔴 本周	精读	AsymCache 论文（arXiv 2606.02964）	GPU kernel 感知设计细节；vLLM PR 潜在贡献方向
🔴 本周	精读	Tutti 论文（arXiv 2605.03375）	HBM-SSD 两层 KV object store 实现；GDS 对比数据
🟡 本周	精读	DualPath 论文（arXiv 2602.21548）	disaggregated 推理架构；Tenstor/Hanguang 参考
🟡 本周	审稿	TGI 迁移计划	确认团队是否仍在使用 TGI，制定 vLLM/SGLang 迁移时间表
🟢 后续	主题页	`LLM 推理系统工程`	整合 KV cache 论文 + 推理引擎选型 + 安全作为独立主题页

知识库草稿：KV Cache 系统工程 · Inference Stack 商业化 · ChromaDB 安全警报

一、KV Cache 系统工程：新论文三连（arXiv 2026）

1. AsymCache：GPU Kernel 感知 KV Cache 驱逐策略

2. DualPath：打破 Agentic LLM 推理的存储带宽瓶颈

3. Tutti：让 SSD 后备 KV Cache 成为长上下文生产方案

4. KV Cache 优化全景综述（arXiv 2603.20397v1）

二、Inference Stack 商业化：vLLM 和 SGLang 估值爆发

5. The Sequence：Inference Stack 已经成为 AI 主导权争夺战

6. The AI Engineer：四大推理引擎工程对比实战手册

7. adlrocha：本地 LLM 推理优化全景（注意力机制 → 预测解码 → 软硬协同）

三、关键安全警报（已知高优先级延续）

8. ChromaDB CVE-2026-45829：未认证 RCE（已知，已在 agent-security 草稿记录）

四、分类标签

五、本次高价值发现（TOP 3）

六、建议写入路径

七、与已有草稿的关系

八、后续精读 / 审稿建议

8. ChromaDB CVE-2026-45829：未认证 RCE（已知，已在 `agent-security` 草稿记录）