Tom 文献雷达 · Agent × RAG × 长上下文 · 2026-06-20

本期主题

Agent × RAG × 长上下文 × 评测

arXiv | CRAG benchmark 实证研究

Streaming RAG 通过在用户输入过程中并行发出工具查询来降低感知延迟，但收益本质上是查询内在的——只有当正确工具在用户停止前已可确定时，推测才有帮助。

本文在 CRAG 基准（1371 道验证题）上测量了工具意图稳定点（tool-intent stabilization）：即推测查询的检索结果收敛到正确答案的时刻分布。揭示了 streaming 助益的结构性条件，对 RAG 延迟优化有直接工程意义。

🔗 http://arxiv.org/abs/2606.20113v1 🏷️ rag benchmark agent systems

arXiv | 递归式 RAG × 长程临床推理

现有医疗 LLM 和 RAG 系统依赖单步检索，当临床证据分散在长 EHR、医学影像、传感器流、指南和转诊约束中时极为脆弱。

MedRLM 提出递归多模态健康智能框架，将临床推理构建为跨影像/EHR/传感器/指南的证据积累过程，并支持社区-三级医院转诊优化。长上下文临床场景下的 RAG 评测值得关注。

🔗 http://arxiv.org/abs/2606.20164v1 🏷️ rag long-context multimodal benchmark

arXiv | Agent 记忆管理的可插拔引擎

对话式和工具型 Agent 的上下文从多方向同时填入，填满后主流方案是按时间截断（配合周期性摘要），这是主题盲的。

PACMS 将上下文选择建模为子模态优化问题，作为可插拔引擎替代 recency truncation，在保持任务性能的同时显著减少 token 消耗。对生产级 Agent 的上下文管理有直接参考价值。

🔗 http://arxiv.org/abs/2606.20047v1 🏷️ agent long-context memory

arXiv | AGENTS.md 质量决定性验证

LLM 编码 Agent 需要超越代码本身的高阶操作知识（如子系统的文件分布、测试套件运行方式）。工程师通常维护 AGENTS.md 为 Agent 提供上下文指引，但近期研究对此效果结论不一。

本文揭示指引的产出方式才是决定性变量，并提出 probe-and-refine tuning 流程，用合成 bug 数据调优仓储引导。对 AI 工作室的 Agent 工程实践有直接指导意义。

🔗 http://arxiv.org/abs/2606.20512v1 🏷️ agent systems

arXiv | 量子开发工具链专项

量子开发工具包（QDK）的快速演进产生特定形式的技术债务，通用 LLM 在量子代码迁移中容易产生幻觉。本文提出结合 RAG 的混合方案改善 Qiskit 版本间代码迁移质量。垂直领域 RAG 工程的参考案例。

🔗 http://arxiv.org/abs/2606.20173v1 🏷️ rag benchmark

arXiv | 长上下文 serving 系统

传统 RDMA disaggregated memory pool 为稀疏注意力模型抓取完整 KV cache 导致严重传输瓶颈。本文提出 SAC 系统，通过 CXL 实现细粒度稀疏 KV cache 管理。面向长上下文 inference 部署的工程参考。

🔗 http://arxiv.org/abs/2606.19746v1 🏷️ long-context memory systems

arXiv | 3D 空间推理 × 工具增强

现实空间智能需要推理连续演化的 3D 世界，而非孤立的静态视觉输入。S-Agent 将空间推理构建为时空证据积累，突破帧级识别范式。多模态 Agent 在空间感知方向的新范式探索。

🔗 http://arxiv.org/abs/2606.20515v1 🏷️ agent multimodal

arXiv | 安全基准

研究 LLM Agent 选择或升级到高于必要权限工具的行为，提出 ToolPrivBench 基准评测。覆盖初始选择和工具失败后的权限升级两个维度。Agent 安全评测的新增考量维度。

🔗 http://arxiv.org/abs/2606.20023v1 🏷️ agent benchmark

「Benchmarking RAG Systems」（amirkabbara.substack.com）

RAG 评测全景综述，涵盖 RAGAS、DeepEval、Arize Phoenix、LangSmith、FutureAGI 等主流框架的评测指标对比，并梳理了 RAG 评测与标准 LLM 测试的核心差异。对建立内部 RAG 评测体系有参考价值。

🔗 https://amirkabbara.substack.com/p/benchmarking-retrieval-augmented

候选总数：8 条
高价值：4 条（Streaming RAG CRAG 实测、MedRLM 临床递归 RAG、PACMS 子模态上下文选择、Probe-and-Refine AGENTS.md 调优）
Substack：1 条（RAG 评测框架全景对比）
CSDN：未使用（本期无明确包含版本/命令/源码分析/排障经验的条目）

本报告由 Tom 文献雷达自动生成 · 2026-06-20 · 轻量模式