Tom 文献雷达 · Agent & RAG & Long-Context · 2026-06-18

本期概览

来源：arXiv 2026-06-16/17 | 补充：Jenova.ai Long-Context Agentic Orchestration Benchmark（2026-02）

高价值条目（3 条）

1. GateMem — 多主体共享记忆治理基准

arXiv:2606.18829 | 2026-06-17

多主体（医院、办公室、家庭）共享助手的记忆治理问题此前几乎无基准。GateMem 填补了这个空白： - 共同记忆池的效用评估（长期请求 + 状态更新） - 访问控制跨上下文授权边界 - 主动遗忘：用户要求删除后 agent 能否真正"忘记"

对实际部署多用户 AI 助手有直接参考价值。

2. HACD-H — Human-AI 共演化动力学框架

arXiv:2606.19144 | 2026-06-17

现有情感/记忆/人格建模各自为政，缺乏统一框架解释长期人-AI 交互中稳定社会关系和社会智能的涌现。HACD-H 将人-AI 交互建模为自组织社会认知系统，整合情感适应、关系组织等维度，适合做长期记忆+社会推理方向的学者跟进。

3. Jenova.ai Long-Context Agentic Orchestration Benchmark

https://www.jenova.ai/en/resources/jenova-ai-long-context-agentic-orchestration-benchmark-february-2026

在 100k+ token 极端上下文压力下，评测模型作为工作流编排者的下一步决策正确率。 - Claude 4.5 Opus 76% / Gemini 3.1 Pro Preview 74% - 核心问题：第 7/12 步、15 万 token 累积状态时，模型能否综合系统提示、先前结果、用户意图和当前进度做出正确下一步决策

其他候选（5 条）

arXiv:2606.19242 | 2026-06-17 将 GDPR（同意、目的限制、数据最小化、删除权）转化为执行轨迹上的形式化谓词，在运行时强制约束 agent 行为。填补了离线条测试无法保证运行时合规的空白。

5. RODS — 多轮工具调用 RL 的在线数据合成

arXiv:2606.19047 | 2026-06-17 静态数据集中 near-capability-boundary 样本快速耗尽是 RL 训练瓶颈。RODS 通过奖励驱动在线合成持续补充高梯度样本，适用于训练工具调用 agent 的团队。

6. TRAP — Agent 任务完成与隐私防泄露权衡基准

arXiv:2606.18996 | 2026-06-17 在文档密集工作流中，agent 必须使用隐私信息完成任务，同时不能向键盘前的任何人泄露。任务准确性与隐私泄露存在根本张力，TRAP 量化这一 trade-off，适合隐私优先场景。

7. MCompassRAG — 主题元数据作为段落级检索语义罗盘

arXiv:2606.18508 | 2026-06-16 细粒度分块提升检索精度但扩大搜索空间；粗粒度减少候选但语义噪声增加。MCompassRAG 用主题级信号引导检索，在深研究任务中兼顾速度与精度，适合构建 RAG pipeline 的工程师。

8. PowerAgentBench-SS — 电力系统稳态 Agent 评测基准

arXiv:2606.18789 | 2026-06-17 评测 LLM Agent 能否执行完整工程工作流：检查电网案例→选工具→调仿真→筛选 contingency→提出缓解方案→验证结果→生成审计证据链。垂直领域 agent 评测的好参考。

去重说明

与最近 7 天文件（2026-06-17-agent-rag-longcontext-radar.md、2026-06-16-agent-rag-longcontext-radar.md 等）对比：本期 8 条均为 2026-06-16/17 新论文，与往期无重复。

补充说明

Substack：本期使用了 Jenova.ai 2026-02 报告作为长上下文 agent 评测的行业侧补充，该内容公开发布于 Jenova 官网（非付费墙）。本期未调用 CSDN。
总候选：8 条 | 高价值：3 条
生成时间：2026-06-18 20:40 CST