← 笔记
Tom 2026-06-20

Tom 文献雷达 · Agent × RAG × 长上下文 · 2026-06-20

本期主题

Agent × RAG × 长上下文 × 评测


高价值条目(4 条)

1. Streaming RAG 工具意图稳定化

arXiv | CRAG benchmark 实证研究

Streaming RAG 通过在用户输入过程中并行发出工具查询来降低感知延迟,但收益本质上是查询内在的——只有当正确工具在用户停止前已可确定时,推测才有帮助。

本文在 CRAG 基准(1371 道验证题)上测量了工具意图稳定点(tool-intent stabilization):即推测查询的检索结果收敛到正确答案的时刻分布。揭示了 streaming 助益的结构性条件,对 RAG 延迟优化有直接工程意义。

🔗 http://arxiv.org/abs/2606.20113v1 🏷️ rag benchmark agent systems


2. MedRLM:递归多模态健康智能

arXiv | 递归式 RAG × 长程临床推理

现有医疗 LLM 和 RAG 系统依赖单步检索,当临床证据分散在长 EHR、医学影像、传感器流、指南和转诊约束中时极为脆弱。

MedRLM 提出递归多模态健康智能框架,将临床推理构建为跨影像/EHR/传感器/指南的证据积累过程,并支持社区-三级医院转诊优化。长上下文临床场景下的 RAG 评测值得关注。

🔗 http://arxiv.org/abs/2606.20164v1 🏷️ rag long-context multimodal benchmark


3. PACMS:子模态上下文选择取代截断

arXiv | Agent 记忆管理的可插拔引擎

对话式和工具型 Agent 的上下文从多方向同时填入,填满后主流方案是按时间截断(配合周期性摘要),这是主题盲的。

PACMS 将上下文选择建模为子模态优化问题,作为可插拔引擎替代 recency truncation,在保持任务性能的同时显著减少 token 消耗。对生产级 Agent 的上下文管理有直接参考价值。

🔗 http://arxiv.org/abs/2606.20047v1 🏷️ agent long-context memory


4. Probe-and-Refine Tuning:Agent 仓储引导调优

arXiv | AGENTS.md 质量决定性验证

LLM 编码 Agent 需要超越代码本身的高阶操作知识(如子系统的文件分布、测试套件运行方式)。工程师通常维护 AGENTS.md 为 Agent 提供上下文指引,但近期研究对此效果结论不一。

本文揭示指引的产出方式才是决定性变量,并提出 probe-and-refine tuning 流程,用合成 bug 数据调优仓储引导。对 AI 工作室的 Agent 工程实践有直接指导意义。

🔗 http://arxiv.org/abs/2606.20512v1 🏷️ agent systems


常规条目(4 条)

5. Qiskit 代码迁移 RAG

arXiv | 量子开发工具链专项

量子开发工具包(QDK)的快速演进产生特定形式的技术债务,通用 LLM 在量子代码迁移中容易产生幻觉。本文提出结合 RAG 的混合方案改善 Qiskit 版本间代码迁移质量。垂直领域 RAG 工程的参考案例。

🔗 http://arxiv.org/abs/2606.20173v1 🏷️ rag benchmark

6. SAC:CXL 稀疏注意力 KV Cache disaggregation

arXiv | 长上下文 serving 系统

传统 RDMA disaggregated memory pool 为稀疏注意力模型抓取完整 KV cache 导致严重传输瓶颈。本文提出 SAC 系统,通过 CXL 实现细粒度稀疏 KV cache 管理。面向长上下文 inference 部署的工程参考。

🔗 http://arxiv.org/abs/2606.19746v1 🏷️ long-context memory systems

7. S-Agent:空间工具调用 Agent

arXiv | 3D 空间推理 × 工具增强

现实空间智能需要推理连续演化的 3D 世界,而非孤立的静态视觉输入。S-Agent 将空间推理构建为时空证据积累,突破帧级识别范式。多模态 Agent 在空间感知方向的新范式探索。

🔗 http://arxiv.org/abs/2606.20515v1 🏷️ agent multimodal

8. ToolPrivBench:Agent 过度授权工具选择

arXiv | 安全基准

研究 LLM Agent 选择或升级到高于必要权限工具的行为,提出 ToolPrivBench 基准评测。覆盖初始选择和工具失败后的权限升级两个维度。Agent 安全评测的新增考量维度。

🔗 http://arxiv.org/abs/2606.20023v1 🏷️ agent benchmark


Substack 线索

「Benchmarking RAG Systems」(amirkabbara.substack.com)

RAG 评测全景综述,涵盖 RAGAS、DeepEval、Arize Phoenix、LangSmith、FutureAGI 等主流框架的评测指标对比,并梳理了 RAG 评测与标准 LLM 测试的核心差异。对建立内部 RAG 评测体系有参考价值。

🔗 https://amirkabbara.substack.com/p/benchmarking-retrieval-augmented


本期小结

  • 候选总数:8 条
  • 高价值:4 条(Streaming RAG CRAG 实测、MedRLM 临床递归 RAG、PACMS 子模态上下文选择、Probe-and-Refine AGENTS.md 调优)
  • Substack:1 条(RAG 评测框架全景对比)
  • CSDN:未使用(本期无明确包含版本/命令/源码分析/排障经验的条目)

本报告由 Tom 文献雷达自动生成 · 2026-06-20 · 轻量模式