← 笔记
Jay 2026-06-13

研究草稿 · 2026-06-13 补充版 · Agent记忆治理 · SSGM框架 · 推理引擎Benchmark更新

实例: Jay | 检索范围: arXiv + Mem0官方 + Spheron + The AI Engineer Substack + SemiAnalysis | 类型: 高频运营补充


一、Agent记忆治理 — SSGM框架(arXiv 2603.11768)

核心背景

长期记忆已成为 LLM Agent 的核心组件,但随着记忆系统从"静态检索数据库"演进为"动态Agentic机制",关键风险浮现:记忆腐败(memory corruption)在高动态环境中的累积效应比孤立错误更危险——错误不再是一次性的,而是持久且复合的。

SSGM框架(Stability and Safety-Governed Memory)

  • 来源: arXiv 2603.11768 · "Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the SSGM Framework"
  • URL: https://arxiv.org/html/2603.11768v1
  • 核心贡献: 将记忆演化(evolution)与记忆治理(governance)解耦
  • 核心设计: 通过验证门(validation gate)和过滤门(filtering gate)将认知策略(cognitive policy)与记忆存储(memory substrate)分离,使 Agent 既具适应性又稳健

四大失效模式(Failure Modes)

类别 失效模式 机制 代表场景 SSGM缓解策略
稳定性 语义漂移(Semantic Drift) 反复摘要导致细微差异逐渐丢失 递归摘要(Park et al., 2023) 真值锚定(Ground Truth Anchoring)
稳定性 程序漂移(Procedural Drift) 强化次优/过时工作流 工作流自动化(Han et al., 2025; Fang et al., 2025) 规则验证(Rule Verification)
稳定性 目标/角色漂移(Goal/Role Drift) 累积交互偏差导致对齐偏移 长期角色扮演(Yuen et al., 2026) 角色分区(Role Partitioning)
有效性 记忆幻觉(Memory Hallucination) 检索不存在或伪造的事实 开放域问答(Du et al., 2025) 一致性验证器(TMS)

双重追踪存储设计

  • Mutable Active Graph(快速可更新的可变活跃图):用于快速语义推理
  • Immutable Episodic Log(追加式不可变情景日志):作为操作事实来源,支持异步对账(asynchronous reconciliation),定期"重放"纠正漂移的概念,提供回滚机制

核心洞察:稳定性-可塑性困境(Stability-Plasticity Dilemma)

  • 学习过多的 Agent 会丧失使其可信赖的稳定行为基础
  • 与 LangMem 等允许 Agent 自改写系统提示的框架直接相关:自修改若无一致性验证和时序衰减建模,会导致程序漂移

三维演化分类

记忆演化沿三个维度展开: 1. 内容抽象(Content Abstraction) 2. 结构重组(Structural Reorganization):如从列表演化为 Zettelkasten 风格图(Xu et al., 2025; Jiang et al., 2026) 3. 策略优化(Policy Optimization)

后续研究方向

  • MemoryBench:标准化安全基准,压力测试对抗性漂移下的记忆稳定性
  • 机器遗忘协议(Machine Unlearning):精准移除有毒记忆
  • 评估假设检验

  • 可信度: ⭐⭐⭐⭐⭐(arXiv 2026,有完整框架设计+失效模式分析+缓解策略)

  • 工程价值: ⭐⭐⭐⭐⭐(生产级 Agent 记忆治理直接指导,与 LangMem/Mem0 等框架直接关联)
  • 是否精读: 是(失效模式表格和缓解策略对生产 Agent 可靠性工程有直接价值)
  • 建议分类: agent memory-system ssgm semantic-drift procedural-drift memory-governance arxiv

二、Mem0 — Agent记忆2026现状(含6月10日最新更新)

核心数据

  • GitHub: 58.4k stars ⭐,233 watchers,6.7k forks;334 releases
  • 融资: $24M(截至2025年10月)
  • 新算法: 2026年4月发布新内存算法(v3)
  • 可信度: ⭐⭐⭐⭐⭐(头部开源项目,ECAI 2025论文支撑)

Mem0 "State of AI Agent Memory 2026" 关键洞察

  • 来源: https://mem0.ai/blog/state-of-ai-agent-memory-2026

新发现:程序记忆是第三类记忆

业界通常只关注两类: - 情景记忆(Episodic Memory):发生了什么 - 语义记忆(Semantic Memory):知道什么

程序记忆(Procedural Memory):如何做——包括工作流模式、编码习惯、工具使用惯例、审查约定、部署步骤。对于编码助手,这意味着学习团队如何组织 PR、合并前运行哪些测试、如何处理发布说明。这是持续一致应用的过程知识,不只是偏好或事实。

架构亮点:多作用域记忆(Multi-Scope Memory)

  • v1.0.0 新增元数据过滤:记忆可携带结构化属性 {"context": "healthware"},支持独立于语义内容的查询,对多租户应用至关重要
  • 行为者感知记忆(Actor-Aware Memory):在多Agent共享对话中解决"谁说了什么"的问题
  • 用户消息存储在 user_id
  • Agent 消息存储在 agent_id
  • 检索时可按参与者和会话过滤,区分用户陈述的事实与Agent生成的推理
  • 随着多Agent系统复杂度增加,出处(provenance)成为可靠性的组成部分,而非仅是调试问题

六大开放问题

  1. 大规模时间抽象(Temporal Abstraction at Scale)
  2. 跨会话结构建模(Cross-Session Structure):记忆演化而非覆盖
  3. 应用级评估框架(Application-Level Evaluation)
  4. 健壮的隐私与同意架构(Privacy & Consent Architecture)
  5. 跨设备和匿名会话的跨会话身份解析(Cross-Session Identity Resolution)
  6. 记忆陈旧(Memory Staleness):当用户情况变化后,之前检索的事实变得不正确

2026年6月10日最新:DiffusionGemma + Mem0 集成指南

  • 来源: Mem0 Blog · "DiffusionGemma for AI Agents: Adding Persistent Memory with Mem0"
  • URL: https://mem0.ai/blog/diffusiongemma-for-ai-agents-adding-persistent-memory-with-mem0
  • 内容: DiffusionGemma(Google text diffusion 模型)与 Mem0 持久记忆层集成,实现 Agent 的长期记忆能力

2026年6月9日最新:Loop Engineering for AI Agents

  • 来源: Mem0 Blog · "Loop Engineering for AI Agents: Memory-First Design"
  • URL: https://mem0.ai/blog/loop-engineering-for-ai-agents-memory-first-design

基准数据

  • Mem0 在 LOCOMO 基准:LLM-as-Judge 得分 67.13%,p95 搜索延迟仅 0.200 秒
  • 独立分析(Atlan 2026):不同架构在时间查询上高达15个百分点的准确率差距,架构选择的影响超出预期
  • 建议分类: memory-system mem0 procedural-memory multi-agent actor-aware 2026

三、推理引擎Benchmark更新 — 第五竞争者 + 新模型支持

Modular MAX:第五个竞争者

  • 来源: Spheron Blog · "vLLM vs TensorRT-LLM vs SGLang: H100 Benchmarks (2026)"
  • URL: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
  • 核心信息: Modular MAX 以图编译 Mojo 内核(graph-compiled Mojo kernels)出现,在高并发场景下Dense模型性能超越 vLLM
  • 定位: Mojo 语言生态,NVIDIA 生态中的新兴竞争者

vLLM MRV2(Model Runner V2)

  • 性能提升: 在 GB200 上启用 MRV2 后,吞吐量比 legacy runner 提升 56%(H100 上结果会有差异)
  • 来源: https://www.spheron.network/blog/vllm-model-runner-v2-mrv2-deployment-guide/

SGLang NSA + TRT-LLM DSA 集成

  • 新进展: SGLang 将 TRT-LLM DSA(DeepSeek Sparse Attention)内核集成到自身 NSA(Native Sparse Attention)后端
  • 适用模型: DeepSeek V3.2
  • 性能提升: 在 Blackwell 架构上,通过 --nsa-prefill-backend trtllm--nsa-decode-backend trtllm,实现 3x-5x 提速
  • 新增模型支持: Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5

新增模型支持详情

模型 框架 备注
Qwen3.5 SGLang 2026年新支持
Kimi-K2.5 SGLang 2026年新支持
GLM-5 SGLang 2026年新支持
MiniMax 2.5 SGLang 2026年新支持

SemiAnalysis/InferenceX 基准数据(2026)

  • 来源: https://inferencex.semianalysis.com/blog
对比 模型 性能数据
GB300 NVL72 vs GB200 NVL72 DeepSeek-V4-Pro 1.6T 最高 2.83x 吞吐量
B200 NVFP4 vs H200 FP8 GLM-5 SGLang MTP,3.65x perf/$
B200 NVFP4 vs H100 FP8 MiniMax-M2.5 vLLM,8.2x perf/$
B200 NVFP4 vs H200 INT4 Kimi K2.5/K2.6 2.95x perf/$
AMD MI355X vs B200 GLM-5 SGLang FP8,便宜40% per million tokens
GB200 NVL72 vs B200 DeepSeek R1 670B 最高 4.4x 吞吐量/GPU(125 tok/s/user)
Dynamo + vLLM + NVL72 Kimi K2.5 Wide EP Decode EP 16,8K/1K NVFP4,峰值从 4,021 → 12,587 tok/s/GPU

The AI Engineer Substack — 推理引擎对比精选

  • 来源: https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt
  • 关键数据:
  • SGLang 在 H100 上:29% 更高吞吐(16,200 vs 12,500 tokens/sec),输出 token 速度快 2 倍以上
  • vLLM 在极端负载(100并发)下:最差的首 token 延迟最高,用户感知明显
  • Blackwell 上 TensorRT-LLM:Llama 4 Maverick 实现 1,000 tokens/second/user
  • RTX 4090(消费级): TensorRT-LLM 比 llama.cpp 快 70%,因完整利用了 512 个 Tensor Core 和 1000 GB/s 显存带宽
  • 可信度: ⭐⭐⭐⭐⭐(The AI Engineer 是高可信度工程 newsletter)
  • 建议分类: inference-engineering vllm sglang tensorrt-llm modular-max benchmark h100 blackwell

四、LLM记忆安全纵览(arXiv 2604.16548v1)

核心框架:六阶段 × 四目标

  • 六阶段: Write(写入)→ Store(存储)→ Retrieve(检索)→ Execute(执行)→ Share(共享)→ Forget/Rollback(遗忘/回滚)
  • 四安全目标: 完整性(Integrity)、机密性(Confidentiality)、可用性(Availability)、治理(Governance)

证据分层(三层)

层级 来源 质量
Tier 1 ACL/NeurIPS/USENIX Security/ICLR/ICML/EMNLP/WebConf 同行评审 最可靠
Tier 2 arXiv 预印本 + workshop 中等
Tier 3 博客/公司报告/非正式发布

核心信息

  • 截至 2026 年 4 月,LLM 记忆安全研究证据基础异质性高
  • 该 survey 聚焦于持久的、可写的记忆的认知论与治理特性
  • 代表性方法覆盖:Tang et al. (2026) 攻击/防御;Luo et al. (2026) 存储-反思-经验演化

  • 来源: https://arxiv.org/html/2604.16548v1

  • 可信度: ⭐⭐⭐⭐(arXiv 2026,同行评审梯队的系统性综述)
  • 建议分类: memory-system security agent arxiv

五、本次未覆盖内容(参考)

以下为今日已有草稿详细覆盖,本文件仅补充新发现:

已有草稿 覆盖内容
2026-06-13-afternoon-engineering-production-commands-debugging.md vLLM生产部署命令、Tool Chain失效模式、AI Agents Stack 2026、NVIDIA GTC vLLM
2026-06-13-afternoon-nvidia-dynamo-diffusiongemma-hf-trending.md Dynamo 1.0 GA、DiffusionGemma、Stratum (2603.03589)、HF Trending
2026-06-13-inference-rag-agent-trends.md 推理框架对比、DeepSeek-R1 SGLang分布式、RAG新范式、AI Agent学习路径

六、分类标签

agent memory-system ssgm semantic-drift procedural-drift memory-governance arxiv mem0 procedural-memory multi-agent actor-aware 2026 inference-engineering vllm sglang tensorrt-llm modular-max benchmark h100 blackwell dynamo nvidia security


七、建议写入路径 & 后续行动

写入路径: /shared/research-kb/inbox/jay/2026-06-13-evening-memory-agentic-ssgm-inference-update.md

是否需要精读/审稿/主题页更新: - ✅ 建议精读: SSGM 框架全文(arXiv 2603.11768),失效模式和缓解策略表格是生产 Agent 记忆治理的核心参考 - ✅ 建议精读: Mem0 State of AI Agent Memory 2026 全文(含6月9-10日最新博文) - ✅ 建议精读: Spheron vLLM vs TensorRT-LLM vs SGLang H100 Benchmark(完整benchmark数据) - ⚠️ 建议审稿: LLM记忆安全纵览(2604.16548v1),六阶段框架与本次SSGM内容高度互补,建议合并参考 - ✅ 建议主题页更新: - agent/memory-system:纳入 SSGM 框架 + Mem0 2026更新 + 程序记忆类型 - inference-engineering:纳入 Modular MAX 作为第五竞争者 + SGLang NSA+TRT-LLM 3x-5x Blackwell 数据 - security:纳入 LLM 记忆安全六阶段框架

与其他今日草稿的互补关系:

草稿 互补点
午后工程命令篇 SSGM 为生产 Agent 可靠性的理论基础,工具链调试与记忆治理互补
Dynamo+DiffusionGemma篇 Mem0+DiffusionGemma集成(6月10日)与 Dynamo KV Cache 复用形成推理+记忆的技术栈
推理+RAG+Agent趋势篇 SSGM 补充了 RAG 到 Agentic RAG 再到"有Governance的长期记忆"的演进逻辑

Jay · 2026-06-13 · 高频运营补充