知识库草稿:KV Cache 系统工程 · Inference Stack 商业化 · ChromaDB 安全警报
实例: Jay | 日期: 2026-06-11 傍晚轮次 检索范围: arXiv · Substack(The AI Engineer / The Sequence / adlrocha)· CSA Labs · Spheron · Hugging Face
一、KV Cache 系统工程:新论文三连(arXiv 2026)
1. AsymCache:GPU Kernel 感知 KV Cache 驱逐策略
- 来源: arXiv:2606.02964v1(2026)
- 标题: "Multi-Segment Attention: Enabling Efficient KV-Cache Management for Faster Large Language Model Serving"
- 链接:
https://arxiv.org/html/2606.02964v1 - 可信度: 高(学术论文,有实测数据,与 GPU kernel 行为联合设计)
- 核心问题: 现有 KV cache 驱逐策略(基于访问频率或位置)没有考虑不同 KV 块如何影响 GPU attention kernel 的执行效率
- 核心贡献(AsymCache): 1. Multi-Segment Attention (MSA):高效处理非连续 KV 上下文 2. 联合优化驱逐策略:同时优化 cache hit rate 和位置感知重计算成本 3. 自适应 chunking scheduler:提高硬件利用率
- 性能数据:
- TTFT(Time To First Token)降低 1.90–2.03×
- TPOT(Time Per Output Token)降低 1.62–1.71×
- 集成到 Continuum agent serving system 后,平均 job latency 降低 18.1%
- 工程意义: 首个将 GPU attention kernel 行为纳入 cache eviction 决策的设计;比通用 LRU 方法更有硬件感知性
- 评价: 适合作为 agent serving 系统(如 Continuum)调优的参考架构
- 标签:
kv-cachegpu-kerneleviction-policyinference-systemsarXivasymcache
2. DualPath:打破 Agentic LLM 推理的存储带宽瓶颈
- 来源: arXiv:2602.21548v2(2026)
- 链接:
https://arxiv.org/html/2602.21548v2 - 可信度: 高(针对 disaggregated 架构的系统设计论文)
- 核心问题: 多轮 agentic LLM 推理的性能瓶颈已从计算转向 KV-Cache 存储 I/O;在 disaggregated 架构中,prefill 引擎的存储 NIC 带宽饱和,而 decode 引擎的存储 NIC 闲置——严重的结构性不均衡
- 核心设计:DualPath 双路径 KV-Cache 加载
- 传统路径:storage → prefill engine
- 新增路径:storage → decode engine → RDMA → prefill engine(绕过网络拥塞)
- 全局调度器动态平衡 prefill/decode 引擎负载
- 性能数据: 离线推理吞吐量提升最高 1.87×
- 工程意义: disaggregated 推理架构(分离 prefill/decode)的必读设计;国内 Tenstor/Hanguang 等 NPU 推理云可参考此双路径思路
- 标签:
kv-cachedisaggregated-inferencestorage-bandwidthdualpathinference-systems
3. Tutti:让 SSD 后备 KV Cache 成为长上下文生产方案
- 来源: arXiv:2605.03375(2026)
- 链接:
https://arxiv.org/html/2605.03375 - 可信度: 高(系统设计 + 实测,针对 NVMe SSD I/O 效率问题)
- 核心问题: GPU HBM + CPU DRAM 不足以容纳长上下文(1M+ token)KV cache;SSD 方案因碎片化小 I/O 导致 GDS(GPU Direct Storage)性能严重下降
- 核心设计:GPU-Centric KV Cache Object Store
- GPU 原生对象抽象(从 critical I/O 控制路径中解耦)
- 两层架构:HBM-SSD
- 饱和 NVMe SSD 带宽,将 GPU stall 降至接近零
- 关键数据: 与 GDS-enabled LMCache 相比,Tutti 推理性能接近 DRAM-backed LMCache(几乎无损)
- 工程意义: 长上下文(1M+ token)生产部署的核心基础设施方案;比纯 HBM 扩展成本低一个数量级
- 标签:
kv-cachessd-backedlong-contextinference-systemstuttinvme
4. KV Cache 优化全景综述(arXiv 2603.20397v1)
- 来源: arXiv:2603.20397v1(24 页系统性综述)
- 链接:
https://arxiv.org/html/2603.20397v1 - 可信度: 高(peer-reviewed,5 大方向系统梳理)
- 五大方向分类: 1. Cache Eviction:动态驱逐(Heuristic-based 或 Learning-based) 2. Cache Compression:量化/稀疏化 KV 表示 3. Hybrid Memory:HBM+DRAM 分层(如 TTKV) 4. Novel Attention:FlashAttention 等新机制降低缓存需求 5. Combination:多策略联合
- 评价: KV cache 优化技术的完整地图,适合作为推理优化技术选型的基础索引;已在
2026-06-11-database-backend-cloudnative-inference.md收录,此处补充推荐理由 - 标签:
kv-cachesurveyinference-optimizationllm
二、Inference Stack 商业化:vLLM 和 SGLang 估值爆发
5. The Sequence:Inference Stack 已经成为 AI 主导权争夺战
- 来源: The Sequence(
thesequence.substack.com)· AI of the Week #797 - 发布时间: 2026-01 月末
- 链接:
https://thesequence.substack.com/p/the-sequence-ai-of-the-week-797-the - 可信度: 高(行业深度分析,引用具体融资金额和轮次)
- 核心事件(2026 年 1 月最后一周,AI 基础设施史上最重要的一周之一): 1. Inferact(vLLM 商业实体):$150M seed,A16z + Lightspeed 领投,估值 $800M 2. RadixArk(SGLang 商业实体):$400M 估值,Accel 领投
- 核心论点: "LLM 的操作系统"——管理内存、调度、内核的层次——现在成为 AI 主导权争夺的主战场
- 行业意义: 推理引擎从学术开源项目升级为独立商业赛道;企业选型时需要考虑供应商锁定 vs. 支持生态的权衡
- 评价: 帮助理解为什么 vLLM/SGLang 在 2026 年受到如此多的生产关注;是推理引擎选型商业考量的重要背景
- 标签:
inference-stackvllmsglangcommercializationventure-capitalsubstack
6. The AI Engineer:四大推理引擎工程对比实战手册
- 来源: The AI Engineer(
theaiengineer.substack.com)· Paolo Perrone - 发布时间: 2026-04
- 链接:
https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt - 可信度: 高(工程实战对比,含具体 benchmark 数字和选型决策树)
- 四引擎核心定位(2026 终局判断):
| 引擎 | 核心机制 | 最佳场景 | 主要局限 |
|---|---|---|---|
| Ollama | 零配置本地运行 | 单用户开发、CI、隐私敏感场景 | 无并发优化,5 用户即瓶颈 |
| vLLM | PagedAttention(GPU 内存分页管理) | 生产默认选项,多硬件支持 | 高并发下 TTFT 最差 |
| SGLang | RadixAttention(共享前缀 KV cache 复用) | 多轮对话、共享上下文 RAG/Agent | 无共享前缀时无优势 |
| TensorRT-LLM | NVIDIA 硬件极致优化(CUDA 图编译) | 长期固定模型的生产部署 | 1-2 周编译时间,NVIDIA 锁定 |
| TGI | — | — | 正式进入维护模式,HuggingFace 推荐迁移至 vLLM/SGLang |
- 关键实测数据(Llama 3.3 70B / H100):
- SGLang vs vLLM:共享前缀场景吞吐量 +29%,输出 token 生成速度快 2×
- TensorRT-LLM on Blackwell:Llama 4 Maverick 达到 1,000 tokens/s
- TensorRT-LLM on RTX 4090:比 llama.cpp 快 70%(完整利用 512 Tensor Cores 和 1000 GB/s 内存带宽)
- vLLM 内存浪费降至 <4%(GPU 可承载并发用户数大幅提升)
-
TGI:在同一硬件上仅实现 68-74% 利用率
-
选型决策树(工程实操): 1. 单用户 / 本地开发 → Ollama 2. 生产多用户 / 多硬件 → vLLM(起点) 3. 多轮对话 / 共享前缀 RAG / Agent → SGLang 4. 固定模型 / 极致性能 / NVIDIA 独占 → TensorRT-LLM 5. 当前用 TGI → 立即启动迁移 vLLM/SGLang
-
评价: 目前最完整的四引擎工程选型指南;决策树可直接用于架构评审;TGI 维护模式声明是 2026 年重要警讯
- 标签:
vllmsglangtensorrt-llmollamaTGIinference-engineproductionselection-guide
7. adlrocha:本地 LLM 推理优化全景(注意力机制 → 预测解码 → 软硬协同)
- 来源: adlrocha Substack(
adlrocha.substack.com) - 发布时间: 2026-05-17
- 链接:
https://adlrocha.substack.com - 可信度: 高(工程优化系列博客,作者有深度积累)
- 覆盖方向:
- 注意力机制优化(FlashAttention 系谱)
- 预测解码(Speculative Decoding)原理与工程权衡
- 软件-模型-硬件协同设计实践
- 评价: 本地推理优化(edge / on-premise)的系统性梳理;适合作为推理优化知识体系的补充入口
- 标签:
local-inferenceattention-mechanismsspeculative-decodingsoftware-hardware-co-design
三、关键安全警报(已知高优先级延续)
8. ChromaDB CVE-2026-45829:未认证 RCE(已知,已在 agent-security 草稿记录)
⚠️ 已在
2026-06-11-agent-security-llm-inference-engineering.md中详细记录,此处仅做引用确认 - 影响:Python FastAPI server,~1,300 万月 pip 下载 - 缓解:迁移 Rust server;网络隔离 Python FastAPI server - 来源:CSA Labs(labs.cloudsecurityalliance.org)
四、分类标签
kv-cache
asymcache
dualpath
tutti
ssd-backed-kv-cache
long-context-inference
disaggregated-inference
inference-systems
inference-engine
vllm
sglang
tensorrt-llm
ollama
TGI-maintenance-mode
inference-stack-commercialization
radixattention
pagedattention
gpu-kernel
eviction-policy
storage-bandwidth
substack
arxiv
五、本次高价值发现(TOP 3)
| 优先级 | 发现 | 来源 | 工程行动 |
|---|---|---|---|
| ⭐⭐⭐⭐⭐ | AsymCache(TTFT 2× / TPOT 1.7×) | arXiv 2606.02964 | 评估 GPU kernel 感知 cache eviction;对比 vLLM LRU 实现 |
| ⭐⭐⭐⭐⭐ | Tutti SSD KV cache(GPU stall 接近零) | arXiv 2605.03375 | 长上下文(1M+)生产部署必读;评估 NVMe 分层方案 |
| ⭐⭐⭐⭐ | 四大引擎选型决策树(含 TGI 停维声明) | The AI Engineer Substack | 用于下次架构评审;TGI 迁移检查 |
六、建议写入路径
/shared/research-kb/inbox/jay/2026-06-11-kv-cache-inference-systems-eviction-security.md ✅ 本文件
七、与已有草稿的关系
| 已有草稿 | 关系 | 说明 |
|---|---|---|
database-backend-cloudnative-inference.md |
互补 | 该文已收录 KV cache 论文(KVP、TTKV、WAIT/Nested WAIT);本文新增 AsymCache、DualPath、Tutti 及 Substack 工程洞察 |
agent-security-llm-inference-engineering.md |
引用 | ChromaDB CVE 在两处均提及;已合并,无重复 |
inference-benchmark-engineering.md |
互补 | 该文聚焦 benchmark methodology;本文聚焦 KV cache 系统设计与工程选型 |
八、后续精读 / 审稿建议
| 优先级 | 类型 | 内容 | 说明 |
|---|---|---|---|
| 🔴 本周 | 精读 | AsymCache 论文(arXiv 2606.02964) | GPU kernel 感知设计细节;vLLM PR 潜在贡献方向 |
| 🔴 本周 | 精读 | Tutti 论文(arXiv 2605.03375) | HBM-SSD 两层 KV object store 实现;GDS 对比数据 |
| 🟡 本周 | 精读 | DualPath 论文(arXiv 2602.21548) | disaggregated 推理架构;Tenstor/Hanguang 参考 |
| 🟡 本周 | 审稿 | TGI 迁移计划 | 确认团队是否仍在使用 TGI,制定 vLLM/SGLang 迁移时间表 |
| 🟢 后续 | 主题页 | LLM 推理系统工程 |
整合 KV cache 论文 + 推理引擎选型 + 安全作为独立主题页 |