研究草稿 · 2026-06-13 补充版 · Agent记忆治理 · SSGM框架 · 推理引擎Benchmark更新

实例: Jay | 检索范围: arXiv + Mem0官方 + Spheron + The AI Engineer Substack + SemiAnalysis | 类型: 高频运营补充

一、Agent记忆治理 — SSGM框架（arXiv 2603.11768）

核心背景

长期记忆已成为 LLM Agent 的核心组件，但随着记忆系统从"静态检索数据库"演进为"动态Agentic机制"，关键风险浮现：记忆腐败（memory corruption）在高动态环境中的累积效应比孤立错误更危险——错误不再是一次性的，而是持久且复合的。

SSGM框架（Stability and Safety-Governed Memory）

来源: arXiv 2603.11768 · "Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the SSGM Framework"
URL: https://arxiv.org/html/2603.11768v1
核心贡献: 将记忆演化（evolution）与记忆治理（governance）解耦
核心设计: 通过验证门（validation gate）和过滤门（filtering gate）将认知策略（cognitive policy）与记忆存储（memory substrate）分离，使 Agent 既具适应性又稳健

四大失效模式（Failure Modes）

类别	失效模式	机制	代表场景	SSGM缓解策略
稳定性	语义漂移（Semantic Drift）	反复摘要导致细微差异逐渐丢失	递归摘要（Park et al., 2023）	真值锚定（Ground Truth Anchoring）
稳定性	程序漂移（Procedural Drift）	强化次优/过时工作流	工作流自动化（Han et al., 2025; Fang et al., 2025）	规则验证（Rule Verification）
稳定性	目标/角色漂移（Goal/Role Drift）	累积交互偏差导致对齐偏移	长期角色扮演（Yuen et al., 2026）	角色分区（Role Partitioning）
有效性	记忆幻觉（Memory Hallucination）	检索不存在或伪造的事实	开放域问答（Du et al., 2025）	一致性验证器（TMS）

双重追踪存储设计

Mutable Active Graph（快速可更新的可变活跃图）：用于快速语义推理
Immutable Episodic Log（追加式不可变情景日志）：作为操作事实来源，支持异步对账（asynchronous reconciliation），定期"重放"纠正漂移的概念，提供回滚机制

核心洞察：稳定性-可塑性困境（Stability-Plasticity Dilemma）

学习过多的 Agent 会丧失使其可信赖的稳定行为基础
与 LangMem 等允许 Agent 自改写系统提示的框架直接相关：自修改若无一致性验证和时序衰减建模，会导致程序漂移

三维演化分类

记忆演化沿三个维度展开： 1. 内容抽象（Content Abstraction） 2. 结构重组（Structural Reorganization）：如从列表演化为 Zettelkasten 风格图（Xu et al., 2025; Jiang et al., 2026） 3. 策略优化（Policy Optimization）

后续研究方向

MemoryBench：标准化安全基准，压力测试对抗性漂移下的记忆稳定性
机器遗忘协议（Machine Unlearning）：精准移除有毒记忆
评估假设检验
可信度: ⭐⭐⭐⭐⭐（arXiv 2026，有完整框架设计+失效模式分析+缓解策略）
工程价值: ⭐⭐⭐⭐⭐（生产级 Agent 记忆治理直接指导，与 LangMem/Mem0 等框架直接关联）
是否精读: 是（失效模式表格和缓解策略对生产 Agent 可靠性工程有直接价值）
建议分类: agent memory-system ssgm semantic-drift procedural-drift memory-governance arxiv

二、Mem0 — Agent记忆2026现状（含6月10日最新更新）

核心数据

GitHub: 58.4k stars ⭐，233 watchers，6.7k forks；334 releases
融资: $24M（截至2025年10月）
新算法: 2026年4月发布新内存算法（v3）
可信度: ⭐⭐⭐⭐⭐（头部开源项目，ECAI 2025论文支撑）

Mem0 "State of AI Agent Memory 2026" 关键洞察

来源: https://mem0.ai/blog/state-of-ai-agent-memory-2026

新发现：程序记忆是第三类记忆

业界通常只关注两类： - 情景记忆（Episodic Memory）：发生了什么 - 语义记忆（Semantic Memory）：知道什么

程序记忆（Procedural Memory）：如何做——包括工作流模式、编码习惯、工具使用惯例、审查约定、部署步骤。对于编码助手，这意味着学习团队如何组织 PR、合并前运行哪些测试、如何处理发布说明。这是持续一致应用的过程知识，不只是偏好或事实。

架构亮点：多作用域记忆（Multi-Scope Memory）

v1.0.0 新增元数据过滤：记忆可携带结构化属性 {"context": "healthware"}，支持独立于语义内容的查询，对多租户应用至关重要
行为者感知记忆（Actor-Aware Memory）：在多Agent共享对话中解决"谁说了什么"的问题
用户消息存储在 user_id 下
Agent 消息存储在 agent_id 下
检索时可按参与者和会话过滤，区分用户陈述的事实与Agent生成的推理
随着多Agent系统复杂度增加，出处（provenance）成为可靠性的组成部分，而非仅是调试问题

六大开放问题

大规模时间抽象（Temporal Abstraction at Scale）
跨会话结构建模（Cross-Session Structure）：记忆演化而非覆盖
应用级评估框架（Application-Level Evaluation）
健壮的隐私与同意架构（Privacy & Consent Architecture）
跨设备和匿名会话的跨会话身份解析（Cross-Session Identity Resolution）
记忆陈旧（Memory Staleness）：当用户情况变化后，之前检索的事实变得不正确

2026年6月10日最新：DiffusionGemma + Mem0 集成指南

来源: Mem0 Blog · "DiffusionGemma for AI Agents: Adding Persistent Memory with Mem0"
URL: https://mem0.ai/blog/diffusiongemma-for-ai-agents-adding-persistent-memory-with-mem0
内容: DiffusionGemma（Google text diffusion 模型）与 Mem0 持久记忆层集成，实现 Agent 的长期记忆能力

2026年6月9日最新：Loop Engineering for AI Agents

来源: Mem0 Blog · "Loop Engineering for AI Agents: Memory-First Design"
URL: https://mem0.ai/blog/loop-engineering-for-ai-agents-memory-first-design

基准数据

Mem0 在 LOCOMO 基准：LLM-as-Judge 得分 67.13%，p95 搜索延迟仅 0.200 秒
独立分析（Atlan 2026）：不同架构在时间查询上高达15个百分点的准确率差距，架构选择的影响超出预期
建议分类: memory-system mem0 procedural-memory multi-agent actor-aware 2026

三、推理引擎Benchmark更新 — 第五竞争者 + 新模型支持

Modular MAX：第五个竞争者

来源: Spheron Blog · "vLLM vs TensorRT-LLM vs SGLang: H100 Benchmarks (2026)"
URL: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
核心信息: Modular MAX 以图编译 Mojo 内核（graph-compiled Mojo kernels）出现，在高并发场景下Dense模型性能超越 vLLM
定位: Mojo 语言生态，NVIDIA 生态中的新兴竞争者

vLLM MRV2（Model Runner V2）

性能提升: 在 GB200 上启用 MRV2 后，吞吐量比 legacy runner 提升 56%（H100 上结果会有差异）
来源: https://www.spheron.network/blog/vllm-model-runner-v2-mrv2-deployment-guide/

SGLang NSA + TRT-LLM DSA 集成

新进展: SGLang 将 TRT-LLM DSA（DeepSeek Sparse Attention）内核集成到自身 NSA（Native Sparse Attention）后端
适用模型: DeepSeek V3.2
性能提升: 在 Blackwell 架构上，通过 --nsa-prefill-backend trtllm 和 --nsa-decode-backend trtllm，实现 3x-5x 提速
新增模型支持: Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5

新增模型支持详情

模型	框架	备注
Qwen3.5	SGLang	2026年新支持
Kimi-K2.5	SGLang	2026年新支持
GLM-5	SGLang	2026年新支持
MiniMax 2.5	SGLang	2026年新支持

SemiAnalysis/InferenceX 基准数据（2026）

来源: https://inferencex.semianalysis.com/blog

对比	模型	性能数据
GB300 NVL72 vs GB200 NVL72	DeepSeek-V4-Pro 1.6T	最高 2.83x 吞吐量
B200 NVFP4 vs H200 FP8	GLM-5	SGLang MTP，3.65x perf/$
B200 NVFP4 vs H100 FP8	MiniMax-M2.5	vLLM，8.2x perf/$
B200 NVFP4 vs H200 INT4	Kimi K2.5/K2.6	2.95x perf/$
AMD MI355X vs B200	GLM-5	SGLang FP8，便宜40% per million tokens
GB200 NVL72 vs B200	DeepSeek R1 670B	最高 4.4x 吞吐量/GPU（125 tok/s/user）
Dynamo + vLLM + NVL72	Kimi K2.5 Wide EP	Decode EP 16，8K/1K NVFP4，峰值从 4,021 → 12,587 tok/s/GPU

The AI Engineer Substack — 推理引擎对比精选

来源: https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt
关键数据:
SGLang 在 H100 上：29% 更高吞吐（16,200 vs 12,500 tokens/sec），输出 token 速度快 2 倍以上
vLLM 在极端负载（100并发）下：最差的首 token 延迟最高，用户感知明显
Blackwell 上 TensorRT-LLM：Llama 4 Maverick 实现 1,000 tokens/second/user
RTX 4090（消费级）: TensorRT-LLM 比 llama.cpp 快 70%，因完整利用了 512 个 Tensor Core 和 1000 GB/s 显存带宽
可信度: ⭐⭐⭐⭐⭐（The AI Engineer 是高可信度工程 newsletter）
建议分类: inference-engineering vllm sglang tensorrt-llm modular-max benchmark h100 blackwell

四、LLM记忆安全纵览（arXiv 2604.16548v1）

核心框架：六阶段 × 四目标

六阶段: Write（写入）→ Store（存储）→ Retrieve（检索）→ Execute（执行）→ Share（共享）→ Forget/Rollback（遗忘/回滚）
四安全目标: 完整性（Integrity）、机密性（Confidentiality）、可用性（Availability）、治理（Governance）

证据分层（三层）

层级	来源	质量
Tier 1	ACL/NeurIPS/USENIX Security/ICLR/ICML/EMNLP/WebConf 同行评审	最可靠
Tier 2	arXiv 预印本 + workshop	中等
Tier 3	博客/公司报告/非正式发布	低

核心信息

截至 2026 年 4 月，LLM 记忆安全研究证据基础异质性高
该 survey 聚焦于持久的、可写的记忆的认知论与治理特性
代表性方法覆盖：Tang et al. (2026) 攻击/防御；Luo et al. (2026) 存储-反思-经验演化
来源: https://arxiv.org/html/2604.16548v1
可信度: ⭐⭐⭐⭐（arXiv 2026，同行评审梯队的系统性综述）
建议分类: memory-system security agent arxiv

五、本次未覆盖内容（参考）

以下为今日已有草稿详细覆盖，本文件仅补充新发现：

已有草稿	覆盖内容
`2026-06-13-afternoon-engineering-production-commands-debugging.md`	vLLM生产部署命令、Tool Chain失效模式、AI Agents Stack 2026、NVIDIA GTC vLLM
`2026-06-13-afternoon-nvidia-dynamo-diffusiongemma-hf-trending.md`	Dynamo 1.0 GA、DiffusionGemma、Stratum (2603.03589)、HF Trending
`2026-06-13-inference-rag-agent-trends.md`	推理框架对比、DeepSeek-R1 SGLang分布式、RAG新范式、AI Agent学习路径

六、分类标签

agent memory-system ssgm semantic-drift procedural-drift memory-governance arxiv mem0 procedural-memory multi-agent actor-aware 2026 inference-engineering vllm sglang tensorrt-llm modular-max benchmark h100 blackwell dynamo nvidia security

七、建议写入路径 & 后续行动

写入路径: /shared/research-kb/inbox/jay/2026-06-13-evening-memory-agentic-ssgm-inference-update.md

是否需要精读/审稿/主题页更新: - ✅ 建议精读: SSGM 框架全文（arXiv 2603.11768），失效模式和缓解策略表格是生产 Agent 记忆治理的核心参考 - ✅ 建议精读: Mem0 State of AI Agent Memory 2026 全文（含6月9-10日最新博文） - ✅ 建议精读: Spheron vLLM vs TensorRT-LLM vs SGLang H100 Benchmark（完整benchmark数据） - ⚠️ 建议审稿: LLM记忆安全纵览（2604.16548v1），六阶段框架与本次SSGM内容高度互补，建议合并参考 - ✅ 建议主题页更新: - agent/memory-system：纳入 SSGM 框架 + Mem0 2026更新 + 程序记忆类型 - inference-engineering：纳入 Modular MAX 作为第五竞争者 + SGLang NSA+TRT-LLM 3x-5x Blackwell 数据 - security：纳入 LLM 记忆安全六阶段框架

与其他今日草稿的互补关系:

草稿	互补点
午后工程命令篇	SSGM 为生产 Agent 可靠性的理论基础，工具链调试与记忆治理互补
Dynamo+DiffusionGemma篇	Mem0+DiffusionGemma集成（6月10日）与 Dynamo KV Cache 复用形成推理+记忆的技术栈
推理+RAG+Agent趋势篇	SSGM 补充了 RAG 到 Agentic RAG 再到"有Governance的长期记忆"的演进逻辑

Jay · 2026-06-13 · 高频运营补充