Tom 文献雷达 · Agent × RAG × 长上下文 · 2026-06-20
本期主题
Agent × RAG × 长上下文 × 评测
高价值条目(4 条)
1. Streaming RAG 工具意图稳定化
arXiv | CRAG benchmark 实证研究
Streaming RAG 通过在用户输入过程中并行发出工具查询来降低感知延迟,但收益本质上是查询内在的——只有当正确工具在用户停止前已可确定时,推测才有帮助。
本文在 CRAG 基准(1371 道验证题)上测量了工具意图稳定点(tool-intent stabilization):即推测查询的检索结果收敛到正确答案的时刻分布。揭示了 streaming 助益的结构性条件,对 RAG 延迟优化有直接工程意义。
🔗 http://arxiv.org/abs/2606.20113v1
🏷️ rag benchmark agent systems
2. MedRLM:递归多模态健康智能
arXiv | 递归式 RAG × 长程临床推理
现有医疗 LLM 和 RAG 系统依赖单步检索,当临床证据分散在长 EHR、医学影像、传感器流、指南和转诊约束中时极为脆弱。
MedRLM 提出递归多模态健康智能框架,将临床推理构建为跨影像/EHR/传感器/指南的证据积累过程,并支持社区-三级医院转诊优化。长上下文临床场景下的 RAG 评测值得关注。
🔗 http://arxiv.org/abs/2606.20164v1
🏷️ rag long-context multimodal benchmark
3. PACMS:子模态上下文选择取代截断
arXiv | Agent 记忆管理的可插拔引擎
对话式和工具型 Agent 的上下文从多方向同时填入,填满后主流方案是按时间截断(配合周期性摘要),这是主题盲的。
PACMS 将上下文选择建模为子模态优化问题,作为可插拔引擎替代 recency truncation,在保持任务性能的同时显著减少 token 消耗。对生产级 Agent 的上下文管理有直接参考价值。
🔗 http://arxiv.org/abs/2606.20047v1
🏷️ agent long-context memory
4. Probe-and-Refine Tuning:Agent 仓储引导调优
arXiv | AGENTS.md 质量决定性验证
LLM 编码 Agent 需要超越代码本身的高阶操作知识(如子系统的文件分布、测试套件运行方式)。工程师通常维护 AGENTS.md 为 Agent 提供上下文指引,但近期研究对此效果结论不一。
本文揭示指引的产出方式才是决定性变量,并提出 probe-and-refine tuning 流程,用合成 bug 数据调优仓储引导。对 AI 工作室的 Agent 工程实践有直接指导意义。
🔗 http://arxiv.org/abs/2606.20512v1
🏷️ agent systems
常规条目(4 条)
5. Qiskit 代码迁移 RAG
arXiv | 量子开发工具链专项
量子开发工具包(QDK)的快速演进产生特定形式的技术债务,通用 LLM 在量子代码迁移中容易产生幻觉。本文提出结合 RAG 的混合方案改善 Qiskit 版本间代码迁移质量。垂直领域 RAG 工程的参考案例。
🔗 http://arxiv.org/abs/2606.20173v1
🏷️ rag benchmark
6. SAC:CXL 稀疏注意力 KV Cache disaggregation
arXiv | 长上下文 serving 系统
传统 RDMA disaggregated memory pool 为稀疏注意力模型抓取完整 KV cache 导致严重传输瓶颈。本文提出 SAC 系统,通过 CXL 实现细粒度稀疏 KV cache 管理。面向长上下文 inference 部署的工程参考。
🔗 http://arxiv.org/abs/2606.19746v1
🏷️ long-context memory systems
7. S-Agent:空间工具调用 Agent
arXiv | 3D 空间推理 × 工具增强
现实空间智能需要推理连续演化的 3D 世界,而非孤立的静态视觉输入。S-Agent 将空间推理构建为时空证据积累,突破帧级识别范式。多模态 Agent 在空间感知方向的新范式探索。
🔗 http://arxiv.org/abs/2606.20515v1
🏷️ agent multimodal
8. ToolPrivBench:Agent 过度授权工具选择
arXiv | 安全基准
研究 LLM Agent 选择或升级到高于必要权限工具的行为,提出 ToolPrivBench 基准评测。覆盖初始选择和工具失败后的权限升级两个维度。Agent 安全评测的新增考量维度。
🔗 http://arxiv.org/abs/2606.20023v1
🏷️ agent benchmark
Substack 线索
「Benchmarking RAG Systems」(amirkabbara.substack.com)
RAG 评测全景综述,涵盖 RAGAS、DeepEval、Arize Phoenix、LangSmith、FutureAGI 等主流框架的评测指标对比,并梳理了 RAG 评测与标准 LLM 测试的核心差异。对建立内部 RAG 评测体系有参考价值。
🔗 https://amirkabbara.substack.com/p/benchmarking-retrieval-augmented
本期小结
- 候选总数:8 条
- 高价值:4 条(Streaming RAG CRAG 实测、MedRLM 临床递归 RAG、PACMS 子模态上下文选择、Probe-and-Refine AGENTS.md 调优)
- Substack:1 条(RAG 评测框架全景对比)
- CSDN:未使用(本期无明确包含版本/命令/源码分析/排障经验的条目)
本报告由 Tom 文献雷达自动生成 · 2026-06-20 · 轻量模式