Tom 文献雷达 · Agent × RAG × 长上下文 · 2026-06-21
本期主题
Agent × RAG × 长上下文 · 第 3 轮(本日第 2 次)
高价值条目(4 条)
1. Streaming RAG:流式工具调用何时真正有效
arXiv | 2026-06-18 | Streaming RAG × 工具意图稳定性
Streaming RAG 在用户输入仍在进行时就并行发出工具查询以降低延迟,但这种"投机"只对那些在用户停笔前就能确定的查询有帮助。
本文提出 tool-intent stabilization(工具意图稳定化):衡量在输入流的哪个节点上,投机查询的检索结果与最终正确答案收敛。核心指标是"speculative query"与"answer-bearing result"之间的收敛点。
在 CRAG 基准(1371 道验证题)上测量了分布特性,发现投机收益本质上是查询内在的——只有正确工具可提前确定的查询才能从流式处理中受益。这对实时 Agent 延迟优化有直接工程意义。
🔗 http://arxiv.org/abs/2606.20113v1
🏷️ agent rag benchmark systems
2. PACMS:LLM Agent 的子模块化上下文选择引擎
arXiv | 2026-06-18 | Agent 上下文管理 × Memory
对话和工具调用 Agent 的上下文窗口同时从多个方向填充:用户/助手轮次、持久记忆存储、工具调用的完整输出。当 token 超限时,现行方案是按时间截断(topic-blind)。
PACMS 将上下文选择建模为子模块化优化问题,提出作为可插拔引擎接入 Agent 系统。核心洞察:老事实被丢弃只是因为"旧",不是因为它不再相关——这是话题盲区。子模块化特性保证了选择具有理论近似保证。
对推进多轮 Agent 记忆管理和上下文压缩有直接参考价值。
🔗 http://arxiv.org/abs/2606.20047v1
🏷️ agent long-context memory
3. MedRLM:递归多模态健康智能与长上下文临床推理
arXiv | 2026-06-18 | RAG × 长上下文 × 多模态 × 评测
真实临床决策支持需要跨长电子病历、医学影像、传感器流、指南和转诊约束进行推理,但现有医疗 LLM 和 RAG 系统多依赖单步提示或检索,在证据跨多模态长文档时脆弱。
MedRLM 提出递归多模态健康智能框架,覆盖:长上下文临床推理、传感器引导筛查、循证决策支持、社区-三级转诊优化。标签含 benchmark,值得关注该框架的评测设定。
🔗 http://arxiv.org/abs/2606.20164v1
🏷️ rag long-context benchmark multimodal
4. ToolPrivBench:Agent 工具权限过选评测
arXiv | 2026-06-18 | Agent 安全 × 工具选择 × Benchmark
当低权限工具已足够时,Agent 是否会选择或升级到更高权限的工具?此前工具选择研究集中在安全无关的元数据偏好,权限敏感选择是研究空白。
ToolPrivBench 评测 Agent 在"低权限工具足够"时是否仍选择高权限工具,涵盖初始选择和工具失败后升级两个阶段。引入 privilege-sensitive 维度,对 Agent 安全性和工具设计有重要参考价值。
🔗 http://arxiv.org/abs/2606.20023v1
🏷️ agent benchmark
其余候选(4 条)
| # | 标题 | 核心标签 |
|---|---|---|
| 5 | Qiskit Code Migration with LLMs(RAG 跨量子版本代码迁移) | rag benchmark |
| 6 | Probe-and-Refine Tuning of Repository Guidance(AGENTS.md 生成流程优化) | agent systems |
| 7 | SAC:CXL disaggregated KV Cache for 稀疏注意力 LLMs | rag long-context systems |
| 8 | S-Agent:空间工具调用唤起空间智能推理 | agent multimodal systems |
Substack 补充(1 条)
Future AGI · Top 5 RAG 评测工具 2026
RAGAS、DeepEval、Arize Phoenix、LangSmith、FutureAGI 横向对比,含各工具指标取舍和选型建议。对搭建 RAG 评测流水线有实用参考价值。
🔗 https://futureagi.substack.com/p/top-5-tools-to-evaluate-rag-performance
本期小结
本期 4 篇高价值全部来自 2026-06-18 的同批次发布,覆盖流式 RAG 延迟优化、Agent 上下文子模块化选择、多模态长上下文临床 RAG、以及 Agent 权限安全评测——四个不同维度,未见明显重叠。
候选 JSON:
/shared/research-kb/inbox/tom/_candidates/2026-06-21-agent-rag-longcontext-candidates.json