← 笔记
Jay 2026-06-25 11:05

Inference Engine & Agent Memory 技术简报

日期: 2026-06-25 11:05
来源: arXiv / LMSYS Blog / NVIDIA Developer Blog / Substack / GitHub Issues
标签: inference-engine, kv-cache, speculative-decoding, agent-memory, distributed-systems


一、Inference Engine 前沿动态

1️⃣ DFlash + Spec V2:推测解码进入新时代

来源: LMSYS Blog — The next generation of speculative decoding: DFlash and Spec V2(Z Lab, Modal, SGLang Teams,2026-06-15)
可信度: ⭐ 高(官方联合发布,含详细 benchmark)

核心内容:

DFlash(Block Diffusion for Flash Speculative Decoding)于 2026-02 论文发布,6月已完整集成进 SGLang 和 vLLM,成为推测解码的新标杆。

指标 数值
Qwen 3.5 397B-A17B,concurrency=1 4.3× baseline throughput,1.5× native MTP
Blackwell GPU(gpt-oss-120b) 15× 吞吐提升
Llama 3.1 8B 交互延迟降低近一半
Gemma 4 31B 5.8×(vLLM),5.1×(SGLang)

技术原理: 标准推测解码(EAGLE-3)每次逐 token 生成候选;DFlash 用块扩散模型在单次前向传播中并行生成一整块 K 个 token,通过块级验证替代逐 token 验证,消除自回归瓶颈。Spec V2 重叠调度器消除主机端调度开销(SGLang 已默认启用,--speculative-algorithm DFLASH)。

工程要点(SGLang 多轮 agent 场景):

python -m sglang.launch_server \
  --model-path meta-llama/Llama-3.1-8B-Instruct \
  --speculative-algorithm DFLASH \
  --speculative-draft-model-path <DFlash-Checkpoint> \
  --mem-fraction-static 0.75

多轮 agent 工作流中每轮上下文累积,TTFT(Time to First Token)下降是关键收益。L40S 等中端 GPU 也有专项优化。

NVIDIA 官方补充: NVIDIA Blog — Boost Inference Performance up to 15x on NVIDIA Blackwell using DFlash(2026-06)—— DFhash 在 H100/H200/B200 全线可用,框架侧 vLLM/TensorRT-LLM 同步支持,HuggingFace 已有 checkpoints 下载。

评价: DFlash 是 2026 年推理系统最重要的工程突破之一,从 3-4×(EAGLE-3)跃升至 6-15× 吞吐,块级并行思路有持续扩展空间。


2️⃣ vLLM vs SGLang 2026:技术路线收敛

来源: Spheron — vLLM vs SGLang 2026: RadixAttention vs PagedAttention
可信度: ⭐ 中(技术对比博客,有 benchmark 数据但非论文)

核心对比:

维度 vLLM SGLang
KV 缓存管理 PagedAttention + 块级管理 RadixAttention(前缀共享)
前缀缓存 块哈希链式复用 enable-prefix-caching + LMCache
推测解码 EAGLE-3/DFlash 支持 DFlash 已集成,Spec V2 默认
长上下文 --max-model-len + --gpu-memory-utilization 0.90 树注意力(Tree Attention)优化
多模态/DiT vLLM-MLX(Apple Silicon) SGLang-Diffusion(LTX-2, Hunyuan3D-2)
生产成熟度 社区更广,企业客户多 新兴,spec V2 激进迭代

SGLang 2026 新特性(2026年6月): - DFLASH 推测解码(#22077#22358#22342 AMD ROCm) - TurboQuant KV Cache 量化 PR(#21617/#21618):2.69-4.4× 内存节省,PPL 降解 <2.5% - FlashInfer MXFP8 Kernel(GEMM + MoE,RL 友好) - Spec V2 overlap scheduling 默认启用

工程建议: 追求前沿特性用 SGLang;追求生态稳定用 vLLM;多轮 RAG/agent 工作流优先测 SGLang + DFlash。


3️⃣ KV Cache 优化工程全景(2026版)

来源: Digital Applied — KV Cache Optimization for LLMs 2026Spheron — KV Cache Optimization Guide
可信度: ⭐ 中高(工程实践指南,引用数据有来源)

核心数据(2026年长上下文成本分布):

上下文长度 KV 内存占比 优化手段
32K tokens 开始超过参数内存 GQA(4-8× 压缩)
128K tokens 主导 GPU VRAM MLA(DeepSeek 7-14× 压缩)
1M tokens 70-90% VRAM,60-85% wall-clock PagedAttention + Prefix Cache + FP8

五大优化手段:

  1. PagedAttention(vLLM 底层):固定大小 16-token 块,内存碎片接近零,块可跨序列共享
  2. Prefix Caching(vLLM/SGLang RadixAttention):相同前缀的请求复用 KV,RAG/chatbot 场景 60-85% 命中,TTFT 从秒级降至 <2s
  3. MLA(Multi-head Latent Attention):DeepSeek V2/V3/V4 的核心,KV 存储低秩投影,7-14× 压缩,1M context 经济可行
  4. KV Cache 量化:FP8(H100/A100,一行启动参数)、INT8、NVFP4;注意质量与吞吐权衡
  5. TurboQuant(SGLang PR #21617):随机正交旋转 + Lloyd-Max 标量量化 + 离群值感知通道分配,ICLR 2026 论文

Llama 3.1 70B @ 32K + 8并发用户 + FP8 KV 内存估算:

KV_cache = 2 × 80层 × 8 KV头 × 128头维度 × 131072序列长度 × 8并发 × 1字节(FP8)
≈ 42.9 GB(仅 KV) + 70 GB(权重) = 113 GB → 需要 2×H100 SXM5

评价: 这篇是 2026 年工程选型的必读手册,KV 内存预算公式和多层优化叠加效果数据对容量规划非常有价值。


二、Agent Memory 系统

4️⃣ 多智能体 KV Cache:跨 Agent 共享与持久化

来源: arXiv 2603.04428 — Persistent Q4 KV Cache for Multi-Agent LLM Inference
可信度: ⭐ 高(arXiv 预印本,含系统评估)

核心研究:

多 Agent 工作流中,每个 Agent 的 KV 缓存可在 Agent 之间复用(跨 Agent 共享):

系统 加速比 缓存复用率
KVCOMM 7.8× >70%
KVFlow 2.19× 并发提升 workflow-aware eviction
本研究(Persistent Q4 KV Cache) 1.9× TTFT(5阶段审讯后期) 跨阶段持久化 + Q4 量化

边缘设备关键数据(24GB VRAM): - FP16:仅 3 个 8K 上下文 Agent 同时运行 - Q4 量化:12 个 Agent(4× 提升) - 16K+ 上下文:FP16 无法容纳单个多 Agent 工作流

安全警示(PROMPTPEEK 研究): 共享 KV 缓存会导致 99% 提示重建攻击风险——多 Agent 隔离是生产部署的必要条件。

评价: KVCOMM 的 7.8× 加速数据令人印象深刻,但隐私隔离问题在共享缓存架构中必须优先解决。


5️⃣ Agent Memory 架构:Context as Topology

来源: The AI Corner — AI Agent is going to hallucinate at scale: the 6 architectures that fix it(2026-06)
可信度: ⭐ 中(技术博客,有"形式证明"宣称,需核验论文)

核心论点:

作者声称有一个形式证明表明当前大多数 Agent 记忆系统"在基础层面已坏"(broken at foundation),并提出 6 种替代架构:

  1. Schema-as-Fibration:跨检索、生成、验证的单一真相来源
  2. Verification Loops:4 个验证环在输出前捕获幻觉
  3. Context-as-Topology:将上下文关系建模为拓扑结构而非平向量
  4. Fabrication-Constrained Prompts(12 个):通过提示工程从结构上消除幻觉

30 天落地路线图(声称含失败模式分析)。

评价: 核心主张足够有力,值得深入追查原始论文和代码。但由于引用不完整,需要核验形式证明的具体来源和同行评审状态,建议先查阅是否对应 arXiv 论文再引用。


6️⃣ Agentic AI 记忆技术全景(2026)

来源: Ken Huang — Memory Technology for Agentic AI Workloads: Technical and Business Outlook(Substack,2026)
可信度: ⭐ 中(行业分析,有数据但非一手研究)

关键洞察:

Agentic AI 将记忆从"支持组件"变成"核心基础设施约束"。2026 年决策关键:模型权重、激活状态、KV 缓存、检索数据、工具状态、用户上下文各自放在哪里,移动速度有多快?

存储技术 定位 趋势
HBM 最高带宽,GPU 封装内 2028-2029 供应缓解
GDDR7 边缘推理加速器,中等成本 2026+ 扩张
NVMe SSD + AI-native context storage KV cache/状态溢出层 长上下文多轮 Agent 必备
DDR5/LPDDR CPU 侧混合部署 供应压力持续

评价: 记忆层次结构是 2026 年 Agent 基础设施的核心挑战,SSD 作为 KV cache 分层存储是值得关注的方向。


7️⃣ AI Agents Stack(2026版)

来源: The AI Engineer — The AI Agents Stack (2026 Edition)(Substack,2026)
可信度: ⭐ 中高(Letta 关联博客,引用广泛)

核心内容:

Letta 2024 年 11 月发布的 AI Agent 栈图已被业界广泛采用。2026 年_stack 新增三个独立层级:

层级 说明
Context Engineering 提示词、 Few-shot、示例工程化
Harness Engineering Agent 执行框架(相当于模型的 OS)
Agent-native Training 与 Agent 共同演化的基础模型训练

六层全栈:LLM → Tool Set → Memory → Harness → Context Engineering → Evaluation

评价: 层级框架清晰,适合作为团队 Agent 架构讨论的共识基础。"Harness Engineering" 作为一个独立概念被明确定义,有助于区分"模型能力"和"基础设施能力"的责任边界。


三、相关已读简报(避免重复)

本日已有三份简报: - 2026-06-25-0820-csdn-engineering-rag-agent-mlops-digest.md — CSDN RAG/Agent/LangChain/MCP - 2026-06-25-0935-morning-github-trending-hf-blog-substack.md — GitHub Trending + HF Blog + Substack - 2026-06-25-1050-engineering-filter-agentic-platform-production-stack.md — Agentic Platform 架构、.NET 生产 Agent

本简报聚焦 推理引擎内部(KV Cache / 推测解码 / 推理系统)Agent 记忆系统架构,与上述三份形成互补。


写入路径

/shared/research-kb/inbox/jay/2026-06-25-1105-inference-engine-kv-cache-agent-memory-digest.md


建议后续行动

优先级 行动 理由
🔴 高 追查 DFlash 原始论文(arXiv)及 SGLang PR #22077 代码实现细节 6月已集成生产,benchmark 数据扎实
🔴 高 核验 "AI Agent is going to hallucinate at scale" 形式证明来源 主张强,需确认是否为 peer-reviewed 工作
🟡 中 SGLang TurboQuant PR #21617 代码审查 2.69-4.4× KV 内存节省,若稳定值得在 Long Context 页推荐
🟡 中 KVCOMM / KVFlow 原始论文 + 実装跟进 7.8× 加速,Agent 间 KV 共享的工程可行性
🟢 低 LMSYS DFlash Blog 完整 benchmark 数据爬取 可作为未来 vLLM vs SGLang 对比页的数据源