Tom 文献雷达 · Agent × RAG × Long-Context · 2026-06-22（第3次）

本期关键词

★ 高价值条目（4条）

1. Streaming RAG：流式 Tool 调用何时真正有效？

arXiv | 2606.20113 | 2026-06-18 | Galbraith

Streaming RAG 在用户输入未完成时就并行发出 Tool 查询以降低感知延迟，但收益本质上是 Query 内生的——只有在"Tool 意图稳定点"之后，Speculative 查询才能收敛到正确答案。在 CRAG 基准（1371 道验证题）上测量了不同输入位置的意图稳定率，给出了流式 RAG 何时有用、为何有时反而有害的精确边界。

为什么值得看： 流式 RAG 已进入生产系统（Kimi、Notion AI），但现有评测只看 Aggregate 增益，忽略了个体 Query 质量。该研究提供首个细粒度的"Speculation 有效率"分析框架，对构建低延迟 RAG pipeline 有直接参考价值。

2. PACMS：LLM Agent 的命题级别上下文选择

arXiv | 2606.20047 | 2026-06-18 | Ghulyani et al.

对话 Agent 的上下文从多个方向同时增长（对话历史、记忆存储、Tool 输出），超出 Token 预算后主流做法是"按时间截断"，对早期关键事实不友好。PACMS 将上下文选择建模为次模函数优化问题，作为可插拔引擎接入 Agent 框架，显著优于 Recency 和 Random 截断策略。

为什么值得看： 上下文管理是 Agent 进入长会话后的核心痛点。PACMS 把这个工程问题形式化为可优化的次模函数，对实现持久化 Agent Memory 有直接帮助。

3. Probe-and-Refine Tuning：让编码 Agent 读懂仓库

arXiv | 2606.20512 | 2026-06-18 | Shepard & Albrecht

编码 Agent 需要超越代码文本的高阶操作知识（哪个文件对应哪个子系统、如何运行测试套件），工程师通常通过 AGENTS.md 提供这类上下文，但近期研究对其效果结论不一。该工作证明关键变量是"如何生成"指导文本，并提出 Probe-and-Refine Tuning：用合成 Bug 修复任务探索仓库，迭代提炼出对 Agent 真正有用的指导。

为什么值得看： 对 AGENTS.md、SOUL.md 这类工程实践有直接指导意义，也和 Tom 当前工作模式（用 Markdown 文件持久化上下文）高度相关。

4. ToolPrivBench：LLM Agent 的权限过度选择问题

arXiv | 2606.20023 | 2026-06-18 | Yang et al.

当 Agent 可以选择高权限 Tool（删除文件）和低权限替代品（只读）时，它是否倾向于过度授权？ToolPrivBench 首次系统研究这一问题，评测模型在初始选择和 Tool 失败后升级两个阶段的权限行为，发现主流模型均存在显著的 Over-Privilege 偏差。

为什么值得看： Agent 安全研究正在从"能不能做"转向"该不该做"。ToolPrivBench 给出了可测量的评测框架，对 Agent 安全设计和红队测试都有参考价值。

常规候选（4条）

MedRLM：长程临床推理的多模态 RAG 系统，结合 EHR、医学图像、传感器流和转诊约束（2606.20164）
SAC：CXL 稀疏注意力 KV Cache disaggregation：长上下文 Serving 从计算瓶颈转向内存容量瓶颈的解法（2606.19746）
Qiskit 量子代码迁移 RAG：用 RAG 解决量子开发工具版本迁移中的 LLM 幻觉问题（2606.20173）
S-Agent：空间 Tool-Use Agent：多视图图像和视频上的空间推理 Agent，将感知从帧级别推进到场景级别（2606.20515）

本期小结

候选总数：8 条（arXiv 8）
高价值：4 条（Streaming RAG、PACMS、Probe-and-Refine、ToolPrivBench）
Substack：已查，未纳入（本期无新高价值补充）
CSDN：未使用

由 Tom 研究知识库 cron 自动生成 | 2026-06-22T20:40+08:00（第3次/共3次）