Tom 文献雷达 · Agent · RAG · Long Context · 2026-06-26
本期高价值(4条)
1. MemStrata:解决 RAG 时间失效问题
- 论文:Temporal Validity in Retrieval Memory: Eliminating Stale-Fact Errors for AI Agents over Evolving Knowledge
- 来源:arXiv · 2026-06-25
- 核心:当事实发生变化(如函数重命名、API 重构),余弦相似度对"矛盾事实"和"重复表述"区分度极低(AUROC 0.59),是结构性问题,非调参可解。提出 MemStrata,维护分层时间记忆。
- 价值:首个对 RAG 陈旧性误差做系统定量分析的工作,直接击中工程落地痛点。
- 标签:agent / rag / memory / benchmark
2. MIRROR:Agentic RAG 的跨表面红队框架
- 论文:MIRROR: Novelty-Constrained Memory-Guided MCTS Red-Teaming for Agentic RAG
- 来源:arXiv · 2026-06-25
- 核心:多模态 agentic RAG 攻击面已从 prompt injection 扩展到 text poisoning、image injection、orchestrator 工具操纵。现有红队模板重复率高(73-84% 精确重复)。MIRROR 用 memory-guided MCTS + novelty constraint 统一跨表面框架。
- 价值:首个覆盖完整攻击面的 agentic RAG 安全框架;MCTS + novelty gate 思路可迁移。
- 标签:agent / rag / memory / benchmark
3. OpenRCA 2.0:从根因标签到因果过程监督
- 论文:OpenRCA 2.0: From Outcome Labels to Causal Process Supervision
- 来源:arXiv · 2026-06-25
- 核心:现有 RCA 数据集只标根因,不标传播路径,导致任务退化为朴素模式匹配。提出 PAVE 协议,用已知干预重建因果传播路径,对 LLM agent 的 long-context + 多步推理 + 工具调用做综合评测。
- 价值:RCA 是综合测试 LLM agent 能力的极佳场景;PAVE 标注协议有通用参考价值。
- 标签:agent / rag / long-context / benchmark
4. Continuum Memory Architecture(CMA)
- 来源:Substack · micheallanham · 2026-06
- 核心:CMA 2026 年初由 Joe Logan 提出,将 agent 记忆从"固定数据库"转变为"持续演化的活状态"。对照实验中,CMA 在 89% 场景优于传统 RAG,尤其在过时事实更新和时间序列理解。但引入 2.4 倍查询延迟和"记忆漂移"风险。
- 价值:工程视角验证了"静态 RAG + 大上下文"作为权宜之计的局限性;与 MemStrata 形成互补。
- 标签:agent / memory / architecture
其余候选(4条)
-
PhysRAG:物理感知视频生成的 RAG 流水线,数据过滤 + 物理知识注入。领域垂直,跨领域参考价值一般。(rag / multimodal / benchmark)
-
Agents That Know Too Much:LLM agent 隐私问题全景调研,覆盖数据泄漏的查询、中间结果、记忆、跨 agent 消息等路径。(agent / memory)
-
Erase-then-Delta Attention(EDA):将"擦除"和"写入"地址解耦的线性注意力机制,提升递归记忆更新的选择性。底层建模贡献。(memory)
-
Adaptive Evaluation of OOB Defenses:综述 out-of-band 防御(CaMeL/FIDES/Progent/RTBAS/FORGE),将它们统一为经典完整性保护(Biba 模型)。(agent / benchmark / systems)
趋势洞察
- 记忆层正在重构:MemStrata(时间有效性)、EDA(擦写解耦)、CMA(持续演化)三条路线并行,都在解决"静态记忆无法应对动态知识"这个核心矛盾。
- Agent 安全从外围走向结构:MIRROR 和 OOB 防御综述标志着 agent 安全不再依赖模型内化,而走向信息流控制和外部引用监控。
- 评测从单点走向因果:OpenRCA 2.0 表明好的 agent 评测需要重建完整因果链,而非仅标注终点。
Tom 文献雷达 · 2026-06-26 · Agent · RAG · Long Context · 共 8 条候选 · 高价值 4 条 · Substack 1 条 · 无 CSDN