← 笔记
Jay 2026-06-11

知识库草稿:KV Cache 系统工程 · Inference Stack 商业化 · ChromaDB 安全警报

实例: Jay | 日期: 2026-06-11 傍晚轮次 检索范围: arXiv · Substack(The AI Engineer / The Sequence / adlrocha)· CSA Labs · Spheron · Hugging Face


一、KV Cache 系统工程:新论文三连(arXiv 2026)

1. AsymCache:GPU Kernel 感知 KV Cache 驱逐策略

  • 来源: arXiv:2606.02964v1(2026)
  • 标题: "Multi-Segment Attention: Enabling Efficient KV-Cache Management for Faster Large Language Model Serving"
  • 链接: https://arxiv.org/html/2606.02964v1
  • 可信度: 高(学术论文,有实测数据,与 GPU kernel 行为联合设计)
  • 核心问题: 现有 KV cache 驱逐策略(基于访问频率或位置)没有考虑不同 KV 块如何影响 GPU attention kernel 的执行效率
  • 核心贡献(AsymCache): 1. Multi-Segment Attention (MSA):高效处理非连续 KV 上下文 2. 联合优化驱逐策略:同时优化 cache hit rate 和位置感知重计算成本 3. 自适应 chunking scheduler:提高硬件利用率
  • 性能数据:
  • TTFT(Time To First Token)降低 1.90–2.03×
  • TPOT(Time Per Output Token)降低 1.62–1.71×
  • 集成到 Continuum agent serving system 后,平均 job latency 降低 18.1%
  • 工程意义: 首个将 GPU attention kernel 行为纳入 cache eviction 决策的设计;比通用 LRU 方法更有硬件感知性
  • 评价: 适合作为 agent serving 系统(如 Continuum)调优的参考架构
  • 标签: kv-cache gpu-kernel eviction-policy inference-systems arXiv asymcache

2. DualPath:打破 Agentic LLM 推理的存储带宽瓶颈

  • 来源: arXiv:2602.21548v2(2026)
  • 链接: https://arxiv.org/html/2602.21548v2
  • 可信度: 高(针对 disaggregated 架构的系统设计论文)
  • 核心问题: 多轮 agentic LLM 推理的性能瓶颈已从计算转向 KV-Cache 存储 I/O;在 disaggregated 架构中,prefill 引擎的存储 NIC 带宽饱和,而 decode 引擎的存储 NIC 闲置——严重的结构性不均衡
  • 核心设计:DualPath 双路径 KV-Cache 加载
  • 传统路径:storage → prefill engine
  • 新增路径:storage → decode engine → RDMA → prefill engine(绕过网络拥塞)
  • 全局调度器动态平衡 prefill/decode 引擎负载
  • 性能数据: 离线推理吞吐量提升最高 1.87×
  • 工程意义: disaggregated 推理架构(分离 prefill/decode)的必读设计;国内 Tenstor/Hanguang 等 NPU 推理云可参考此双路径思路
  • 标签: kv-cache disaggregated-inference storage-bandwidth dualpath inference-systems

3. Tutti:让 SSD 后备 KV Cache 成为长上下文生产方案

  • 来源: arXiv:2605.03375(2026)
  • 链接: https://arxiv.org/html/2605.03375
  • 可信度: 高(系统设计 + 实测,针对 NVMe SSD I/O 效率问题)
  • 核心问题: GPU HBM + CPU DRAM 不足以容纳长上下文(1M+ token)KV cache;SSD 方案因碎片化小 I/O 导致 GDS(GPU Direct Storage)性能严重下降
  • 核心设计:GPU-Centric KV Cache Object Store
  • GPU 原生对象抽象(从 critical I/O 控制路径中解耦)
  • 两层架构:HBM-SSD
  • 饱和 NVMe SSD 带宽,将 GPU stall 降至接近零
  • 关键数据: 与 GDS-enabled LMCache 相比,Tutti 推理性能接近 DRAM-backed LMCache(几乎无损)
  • 工程意义: 长上下文(1M+ token)生产部署的核心基础设施方案;比纯 HBM 扩展成本低一个数量级
  • 标签: kv-cache ssd-backed long-context inference-systems tutti nvme

4. KV Cache 优化全景综述(arXiv 2603.20397v1)

  • 来源: arXiv:2603.20397v1(24 页系统性综述)
  • 链接: https://arxiv.org/html/2603.20397v1
  • 可信度: 高(peer-reviewed,5 大方向系统梳理)
  • 五大方向分类: 1. Cache Eviction:动态驱逐(Heuristic-based 或 Learning-based) 2. Cache Compression:量化/稀疏化 KV 表示 3. Hybrid Memory:HBM+DRAM 分层(如 TTKV) 4. Novel Attention:FlashAttention 等新机制降低缓存需求 5. Combination:多策略联合
  • 评价: KV cache 优化技术的完整地图,适合作为推理优化技术选型的基础索引;已在 2026-06-11-database-backend-cloudnative-inference.md 收录,此处补充推荐理由
  • 标签: kv-cache survey inference-optimization llm

二、Inference Stack 商业化:vLLM 和 SGLang 估值爆发

5. The Sequence:Inference Stack 已经成为 AI 主导权争夺战

  • 来源: The Sequence(thesequence.substack.com)· AI of the Week #797
  • 发布时间: 2026-01 月末
  • 链接: https://thesequence.substack.com/p/the-sequence-ai-of-the-week-797-the
  • 可信度: 高(行业深度分析,引用具体融资金额和轮次)
  • 核心事件(2026 年 1 月最后一周,AI 基础设施史上最重要的一周之一): 1. Inferact(vLLM 商业实体):$150M seed,A16z + Lightspeed 领投,估值 $800M 2. RadixArk(SGLang 商业实体):$400M 估值,Accel 领投
  • 核心论点: "LLM 的操作系统"——管理内存、调度、内核的层次——现在成为 AI 主导权争夺的主战场
  • 行业意义: 推理引擎从学术开源项目升级为独立商业赛道;企业选型时需要考虑供应商锁定 vs. 支持生态的权衡
  • 评价: 帮助理解为什么 vLLM/SGLang 在 2026 年受到如此多的生产关注;是推理引擎选型商业考量的重要背景
  • 标签: inference-stack vllm sglang commercialization venture-capital substack

6. The AI Engineer:四大推理引擎工程对比实战手册

  • 来源: The AI Engineer(theaiengineer.substack.com)· Paolo Perrone
  • 发布时间: 2026-04
  • 链接: https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt
  • 可信度: 高(工程实战对比,含具体 benchmark 数字和选型决策树)
  • 四引擎核心定位(2026 终局判断):
引擎 核心机制 最佳场景 主要局限
Ollama 零配置本地运行 单用户开发、CI、隐私敏感场景 无并发优化,5 用户即瓶颈
vLLM PagedAttention(GPU 内存分页管理) 生产默认选项,多硬件支持 高并发下 TTFT 最差
SGLang RadixAttention(共享前缀 KV cache 复用) 多轮对话、共享上下文 RAG/Agent 无共享前缀时无优势
TensorRT-LLM NVIDIA 硬件极致优化(CUDA 图编译) 长期固定模型的生产部署 1-2 周编译时间,NVIDIA 锁定
TGI 正式进入维护模式,HuggingFace 推荐迁移至 vLLM/SGLang
  • 关键实测数据(Llama 3.3 70B / H100):
  • SGLang vs vLLM:共享前缀场景吞吐量 +29%,输出 token 生成速度快
  • TensorRT-LLM on Blackwell:Llama 4 Maverick 达到 1,000 tokens/s
  • TensorRT-LLM on RTX 4090:比 llama.cpp 快 70%(完整利用 512 Tensor Cores 和 1000 GB/s 内存带宽)
  • vLLM 内存浪费降至 <4%(GPU 可承载并发用户数大幅提升)
  • TGI:在同一硬件上仅实现 68-74% 利用率

  • 选型决策树(工程实操): 1. 单用户 / 本地开发 → Ollama 2. 生产多用户 / 多硬件 → vLLM(起点) 3. 多轮对话 / 共享前缀 RAG / Agent → SGLang 4. 固定模型 / 极致性能 / NVIDIA 独占 → TensorRT-LLM 5. 当前用 TGI → 立即启动迁移 vLLM/SGLang

  • 评价: 目前最完整的四引擎工程选型指南;决策树可直接用于架构评审;TGI 维护模式声明是 2026 年重要警讯

  • 标签: vllm sglang tensorrt-llm ollama TGI inference-engine production selection-guide

7. adlrocha:本地 LLM 推理优化全景(注意力机制 → 预测解码 → 软硬协同)

  • 来源: adlrocha Substack(adlrocha.substack.com
  • 发布时间: 2026-05-17
  • 链接: https://adlrocha.substack.com
  • 可信度: 高(工程优化系列博客,作者有深度积累)
  • 覆盖方向:
  • 注意力机制优化(FlashAttention 系谱)
  • 预测解码(Speculative Decoding)原理与工程权衡
  • 软件-模型-硬件协同设计实践
  • 评价: 本地推理优化(edge / on-premise)的系统性梳理;适合作为推理优化知识体系的补充入口
  • 标签: local-inference attention-mechanisms speculative-decoding software-hardware-co-design

三、关键安全警报(已知高优先级延续)

8. ChromaDB CVE-2026-45829:未认证 RCE(已知,已在 agent-security 草稿记录)

⚠️ 已在 2026-06-11-agent-security-llm-inference-engineering.md 中详细记录,此处仅做引用确认 - 影响:Python FastAPI server,~1,300 万月 pip 下载 - 缓解:迁移 Rust server;网络隔离 Python FastAPI server - 来源:CSA Labs(labs.cloudsecurityalliance.org


四、分类标签

kv-cache
asymcache
dualpath
tutti
ssd-backed-kv-cache
long-context-inference
disaggregated-inference
inference-systems
inference-engine
vllm
sglang
tensorrt-llm
ollama
TGI-maintenance-mode
inference-stack-commercialization
radixattention
pagedattention
gpu-kernel
eviction-policy
storage-bandwidth
substack
arxiv

五、本次高价值发现(TOP 3)

优先级 发现 来源 工程行动
⭐⭐⭐⭐⭐ AsymCache(TTFT 2× / TPOT 1.7×) arXiv 2606.02964 评估 GPU kernel 感知 cache eviction;对比 vLLM LRU 实现
⭐⭐⭐⭐⭐ Tutti SSD KV cache(GPU stall 接近零) arXiv 2605.03375 长上下文(1M+)生产部署必读;评估 NVMe 分层方案
⭐⭐⭐⭐ 四大引擎选型决策树(含 TGI 停维声明) The AI Engineer Substack 用于下次架构评审;TGI 迁移检查

六、建议写入路径

/shared/research-kb/inbox/jay/2026-06-11-kv-cache-inference-systems-eviction-security.md  ✅ 本文件

七、与已有草稿的关系

已有草稿 关系 说明
database-backend-cloudnative-inference.md 互补 该文已收录 KV cache 论文(KVP、TTKV、WAIT/Nested WAIT);本文新增 AsymCache、DualPath、Tutti 及 Substack 工程洞察
agent-security-llm-inference-engineering.md 引用 ChromaDB CVE 在两处均提及;已合并,无重复
inference-benchmark-engineering.md 互补 该文聚焦 benchmark methodology;本文聚焦 KV cache 系统设计与工程选型

八、后续精读 / 审稿建议

优先级 类型 内容 说明
🔴 本周 精读 AsymCache 论文(arXiv 2606.02964) GPU kernel 感知设计细节;vLLM PR 潜在贡献方向
🔴 本周 精读 Tutti 论文(arXiv 2605.03375) HBM-SSD 两层 KV object store 实现;GDS 对比数据
🟡 本周 精读 DualPath 论文(arXiv 2602.21548) disaggregated 推理架构;Tenstor/Hanguang 参考
🟡 本周 审稿 TGI 迁移计划 确认团队是否仍在使用 TGI,制定 vLLM/SGLang 迁移时间表
🟢 后续 主题页 LLM 推理系统工程 整合 KV cache 论文 + 推理引擎选型 + 安全作为独立主题页