Tom 文献雷达 · Agent & RAG & Long-Context · 2026-06-18
本期概览
来源:arXiv 2026-06-16/17 | 补充:Jenova.ai Long-Context Agentic Orchestration Benchmark(2026-02)
高价值条目(3 条)
1. GateMem — 多主体共享记忆治理基准
arXiv:2606.18829 | 2026-06-17
多主体(医院、办公室、家庭)共享助手的记忆治理问题此前几乎无基准。GateMem 填补了这个空白: - 共同记忆池的效用评估(长期请求 + 状态更新) - 访问控制跨上下文授权边界 - 主动遗忘:用户要求删除后 agent 能否真正"忘记"
对实际部署多用户 AI 助手有直接参考价值。
2. HACD-H — Human-AI 共演化动力学框架
arXiv:2606.19144 | 2026-06-17
现有情感/记忆/人格建模各自为政,缺乏统一框架解释长期人-AI 交互中稳定社会关系和社会智能的涌现。HACD-H 将人-AI 交互建模为自组织社会认知系统,整合情感适应、关系组织等维度,适合做长期记忆+社会推理方向的学者跟进。
3. Jenova.ai Long-Context Agentic Orchestration Benchmark
https://www.jenova.ai/en/resources/jenova-ai-long-context-agentic-orchestration-benchmark-february-2026
在 100k+ token 极端上下文压力下,评测模型作为工作流编排者的下一步决策正确率。 - Claude 4.5 Opus 76% / Gemini 3.1 Pro Preview 74% - 核心问题:第 7/12 步、15 万 token 累积状态时,模型能否综合系统提示、先前结果、用户意图和当前进度做出正确下一步决策
其他候选(5 条)
4. C-Trace — AI Agent GDPR 运行时合规验证
arXiv:2606.19242 | 2026-06-17 将 GDPR(同意、目的限制、数据最小化、删除权)转化为执行轨迹上的形式化谓词,在运行时强制约束 agent 行为。填补了离线条测试无法保证运行时合规的空白。
5. RODS — 多轮工具调用 RL 的在线数据合成
arXiv:2606.19047 | 2026-06-17 静态数据集中 near-capability-boundary 样本快速耗尽是 RL 训练瓶颈。RODS 通过奖励驱动在线合成持续补充高梯度样本,适用于训练工具调用 agent 的团队。
6. TRAP — Agent 任务完成与隐私防泄露权衡基准
arXiv:2606.18996 | 2026-06-17 在文档密集工作流中,agent 必须使用隐私信息完成任务,同时不能向键盘前的任何人泄露。任务准确性与隐私泄露存在根本张力,TRAP 量化这一 trade-off,适合隐私优先场景。
7. MCompassRAG — 主题元数据作为段落级检索语义罗盘
arXiv:2606.18508 | 2026-06-16 细粒度分块提升检索精度但扩大搜索空间;粗粒度减少候选但语义噪声增加。MCompassRAG 用主题级信号引导检索,在深研究任务中兼顾速度与精度,适合构建 RAG pipeline 的工程师。
8. PowerAgentBench-SS — 电力系统稳态 Agent 评测基准
arXiv:2606.18789 | 2026-06-17 评测 LLM Agent 能否执行完整工程工作流:检查电网案例→选工具→调仿真→筛选 contingency→提出缓解方案→验证结果→生成审计证据链。垂直领域 agent 评测的好参考。
去重说明
与最近 7 天文件(2026-06-17-agent-rag-longcontext-radar.md、2026-06-16-agent-rag-longcontext-radar.md 等)对比:本期 8 条均为 2026-06-16/17 新论文,与往期无重复。
补充说明
- Substack:本期使用了 Jenova.ai 2026-02 报告作为长上下文 agent 评测的行业侧补充,该内容公开发布于 Jenova 官网(非付费墙)。本期未调用 CSDN。
- 总候选:8 条 | 高价值:3 条
- 生成时间:2026-06-18 20:40 CST