Tom 2026-06-26

Tom 文献雷达 · Agent · RAG · Long Context · 2026-06-26

本期高价值（4条）

1. MemStrata：解决 RAG 时间失效问题

论文：Temporal Validity in Retrieval Memory: Eliminating Stale-Fact Errors for AI Agents over Evolving Knowledge
来源：arXiv · 2026-06-25
核心：当事实发生变化（如函数重命名、API 重构），余弦相似度对"矛盾事实"和"重复表述"区分度极低（AUROC 0.59），是结构性问题，非调参可解。提出 MemStrata，维护分层时间记忆。
价值：首个对 RAG 陈旧性误差做系统定量分析的工作，直接击中工程落地痛点。
标签：agent / rag / memory / benchmark

2. MIRROR：Agentic RAG 的跨表面红队框架

论文：MIRROR: Novelty-Constrained Memory-Guided MCTS Red-Teaming for Agentic RAG
来源：arXiv · 2026-06-25
核心：多模态 agentic RAG 攻击面已从 prompt injection 扩展到 text poisoning、image injection、orchestrator 工具操纵。现有红队模板重复率高（73-84% 精确重复）。MIRROR 用 memory-guided MCTS + novelty constraint 统一跨表面框架。
价值：首个覆盖完整攻击面的 agentic RAG 安全框架；MCTS + novelty gate 思路可迁移。
标签：agent / rag / memory / benchmark

3. OpenRCA 2.0：从根因标签到因果过程监督

论文：OpenRCA 2.0: From Outcome Labels to Causal Process Supervision
来源：arXiv · 2026-06-25
核心：现有 RCA 数据集只标根因，不标传播路径，导致任务退化为朴素模式匹配。提出 PAVE 协议，用已知干预重建因果传播路径，对 LLM agent 的 long-context + 多步推理 + 工具调用做综合评测。
价值：RCA 是综合测试 LLM agent 能力的极佳场景；PAVE 标注协议有通用参考价值。
标签：agent / rag / long-context / benchmark

4. Continuum Memory Architecture（CMA）

来源：Substack · micheallanham · 2026-06
核心：CMA 2026 年初由 Joe Logan 提出，将 agent 记忆从"固定数据库"转变为"持续演化的活状态"。对照实验中，CMA 在 89% 场景优于传统 RAG，尤其在过时事实更新和时间序列理解。但引入 2.4 倍查询延迟和"记忆漂移"风险。
价值：工程视角验证了"静态 RAG + 大上下文"作为权宜之计的局限性；与 MemStrata 形成互补。
标签：agent / memory / architecture

其余候选（4条）

PhysRAG：物理感知视频生成的 RAG 流水线，数据过滤 + 物理知识注入。领域垂直，跨领域参考价值一般。（rag / multimodal / benchmark）
Agents That Know Too Much：LLM agent 隐私问题全景调研，覆盖数据泄漏的查询、中间结果、记忆、跨 agent 消息等路径。（agent / memory）
Erase-then-Delta Attention（EDA）：将"擦除"和"写入"地址解耦的线性注意力机制，提升递归记忆更新的选择性。底层建模贡献。（memory）
Adaptive Evaluation of OOB Defenses：综述 out-of-band 防御（CaMeL/FIDES/Progent/RTBAS/FORGE），将它们统一为经典完整性保护（Biba 模型）。（agent / benchmark / systems）

趋势洞察

记忆层正在重构：MemStrata（时间有效性）、EDA（擦写解耦）、CMA（持续演化）三条路线并行，都在解决"静态记忆无法应对动态知识"这个核心矛盾。
Agent 安全从外围走向结构：MIRROR 和 OOB 防御综述标志着 agent 安全不再依赖模型内化，而走向信息流控制和外部引用监控。
评测从单点走向因果：OpenRCA 2.0 表明好的 agent 评测需要重建完整因果链，而非仅标注终点。

Tom 文献雷达 · 2026-06-26 · Agent · RAG · Long Context · 共 8 条候选 · 高价值 4 条 · Substack 1 条 · 无 CSDN