Tom 文献雷达 2026-06-14

扫描时间：2026-06-14 08:40 CST
主题：AI Agent、RAG、检索、长上下文、评测
候选数：10
必读/必跟进：5
建议进入 papers.jsonl：5

必读/必跟进（5 条）

1. RAG over Thinking Traces Can Improve Reasoning Tasks

来源：arXiv 2605.03344v2
链接：https://arxiv.org/html/2605.03344v2
作者：（待补充）
发布日期：2026-05（arXiv v2）
核心内容：
将推理痕迹（thinking traces）作为 RAG 检索语料，在 AIME 2025-2026、LiveCodeBench、GPQA-Diamond 上持续改进推理性能
Gemini-2.5-Flash 在 AIME 2025-2026 上相对增益 +56.3%；GPT-5 增益 +7.6%
引入 𝒯³（T-cubed）离线方法，将推理痕迹转换为结构化、检索友好的表示
挑战传统观点：标准 RAG over web corpus 在数学推理任务中收益有限或不一致
价值判断：高 — 验证了推理痕迹作为结构化检索源的有效性；即使对更新的模型（GPT-5）也有增益
标签：RAG reasoning thinking-traces math-reasoning retrieval AIME GPQA
建议操作：
进入 research-kb/registry/papers.jsonl
标记为 RAG 新范式候选
需补充：作者信息、代码链接、完整 citation

2. Rethinking RAG in Long Videos: What to Retrieve and How to Use It? (VideoRAG / V-RAGBench)

来源：arXiv 2606.13141v1
链接：https://arxiv.org/html/2606.13141v1
作者：（待补充）
发布日期：2026-06
核心内容：
提出 VideoRAG 范式，针对长视频的 egocentric 场景（可穿戴设备、个人代理视频数据）
V-RAGBench 基准：测试跨多模态表示（视觉特征、文本抽象）和多时间粒度（帧、片段）的检索与生成
核心问题：在 VideoRAG 中，哪种视频 chunk 表示最适合检索和生成两个阶段
价值判断：高 — 填补视频 RAG 的评测空白；可穿戴设备和个人代理视频数据的实用场景
标签：VideoRAG multimodal long-video retrieval egocentric benchmark
建议操作：
进入 research-kb/registry/papers.jsonl
标记为 multimodal RAG 前沿
需补充：作者信息、数据集链接、代码链接

3. DIVERGE: Diversity-Enhanced Retrieval-Augmented Generation

来源：arXiv 2602.00238v2
链接：https://arxiv.org/html/2602.00238v2
代码：https://github.com/（待补充）
发布日期：2026-02（arXiv v2）
核心内容：
agentic RAG 框架，通过迭代、反思引导的多视角探索和多样性感知检索，改善开放式信息检索中的 diversity-quality tradeoff
解决三大问题：
- (C1) Single-Answer Bias：单一 RAG 生成优先过度自信答案，忽略替代信息
- (C2) Missing Diversity Preservation：缺乏跟踪已探索视角的机制，导致响应高度相似
- (C3) Practical Compatibility：许多方法需要 token-level logits，无法兼容前沿 LLM
plug-and-play 设计，兼容前沿 LLM
价值判断：高 — 明确定义 diversity-quality tradeoff；agentic RAG 方法论的重要补充
标签：agentic-RAG diversity open-ended-QA reflection multi-viewpoint
建议操作：
进入 research-kb/registry/papers.jsonl
标记为 agentic RAG 方法论
需补充：作者信息、代码链接、完整 citation

4. Recursive Agent Harness (RAH)

来源：arXiv 2606.13643v1
链接：https://arxiv.org/html/2606.13643v1
作者：（待补充）
发布日期：2026-06
核心内容：
harness recursion（代码优先）扩展 RLM 的 model recursion
父代理生成可执行脚本，并行生成子代理 harness 处理细粒度工作负载；小子任务使用结构化函数调用
在 Oolong-Synthetic（1K-4M token，13 个上下文长度桶）上使用 GPT-5 评估，与 Codex baseline 对比
生产级 coding agent 的递归子代理模式；Anthropic 动态工作流的理论化
价值判断：高 — 生产级 coding agent 的递归子代理模式；与 Anthropic 实践对齐
标签：recursive-agents long-context coding-agent harness GPT-5 Oolong
建议操作：
进入 research-kb/registry/papers.jsonl
标记为 agent 架构前沿
需补充：作者信息、代码链接、与 Anthropic 动态工作流的关系说明

5. Agents' Last Exam (ALE)

来源：arXiv 2606.05405v2
链接：https://arxiv.org/html/2606.05405v2
作者：（待补充）
发布日期：2026-06
核心内容：
长时域、经济价值、真实世界任务的 AI agent 基准
250+ 行业专家协作，覆盖 O*NET/SOC 2018 非物理行业，55 个子领域、13 个行业集群、1K+ 任务
最难层级全通过率 <1%（主流 harness + backbone 配置）
living benchmark：任务池持续扩展
设计目标：缩小 benchmark success 与 GDP-relevant impact 的差距
价值判断：高 — 填补 benchmark-to-GDP-impact 差距；living benchmark 持续扩展；真实经济价值任务
标签：agent-benchmark long-horizon economic-value real-world eval O*NET
建议操作：
进入 research-kb/registry/papers.jsonl
标记为 agent 评测新标准
需补充：作者信息、任务示例链接、leaderboard 链接

重要但需进一步验证（3 条）

6. Google Agentic RAG: Sufficient Context Agent for Multi-hop Queries

来源：MarkTechPost 2026-06-08（二手报道）
链接：https://www.marktechpost.com/2026/06/08/google-research-adds-agentic-rag-to-gemini-enterprise-agent-platform-with-a-sufficient-context-agent-for-multi-hop-queries
发布日期：2026-06-08
核心内容：
Google Research 在 Gemini Enterprise Agent Platform 中加入 agentic RAG
Sufficient Context Agent：多代理工作流规划、重写、重搜索直至上下文完整
Cross-Corpus Retrieval powered by Agentic RAG
factuality 准确率提升最多 34%
解决标准单步 RAG 在多源、多跳查询中的失败模式（例如：需要先找到服务器 ID，再用 ID 查询第二个数据库）
价值判断：中-高 — 企业级 agentic RAG 落地案例；需查找 Google 官方论文或技术报告
标签：Google agentic-RAG multi-hop enterprise Gemini cross-corpus
后续行动：
记录为线索，待补查 Google 官方论文链接或技术博客
如找到官方论文，升级为必读并进入 papers.jsonl

7. Decentralized Multi-Agent Systems with Shared Context (DeLM)

来源：arXiv 2606.10662v1
链接：https://arxiv.org/html/2606.10662v1
发布日期：2026-06
核心内容：
去中心化语言模型（DeLM）
压缩和验证准入机制（Compression and Verified Admission）
在 SWE-bench Verified、LongBench-v2、OOLONG 上评估不同形式的多代理协调：
- 软件工程测试时扩展（并行探索不同推理轨迹）
- 长上下文多文档 QA（并发检查不同证据集群）
- 聚合密集型长上下文推理（DeLM 与 RLM 互补）
价值判断：中 — 去中心化协调的新角度；与 RLM 互补；需观察社区反响
标签：decentralized-agents multi-agent shared-context SWE-bench LongBench-v2 OOLONG
后续行动：观察跟进，暂不进入 papers.jsonl；如后续有高引用或实际部署案例，再升级

8. When Iterative RAG Beats Ideal Evidence

来源：arXiv 2601.19827v4
链接：https://arxiv.org/html/2601.19827v4
发布日期：2026-01（arXiv v4）
核心内容：
诊断性评估：迭代 RAG 何时超越理想静态 RAG（Gold-Context）
科学多跳 QA 场景
三种模式对比：
- No Context（仅参数记忆）
- Gold Context（Oracle evidence 一次性提供）
- Iterative RAG（控制检索-推理循环，显式步骤分配和停止）
评估 11 个 SOTA LLM
价值判断：中 — 机制级诊断研究；挑战静态 RAG 上界假设；但样本量和领域覆盖需关注
标签：iterative-RAG multi-hop-QA scientific-QA diagnostic-eval Gold-Context
后续行动：观察跟进，暂不进入 papers.jsonl；如后续有更大规模验证，再升级

Substack 洞察（2 条）

9. The AI/ML Engineer Interview Guide for 2026 - Part 1

来源：thecuriousmak.substack.com
链接：https://thecuriousmak.substack.com/p/the-aiml-engineer-interview-guide
发布时间：2026-06（推测）
作者/专栏：The Curious Mak
核心观点：
AI/ML 工程师面试范式转变
传统 ML：监督学习、推荐系统、模型评估、梯度提升、类不平衡、校准、实验、数据泄漏
LLM/多模态基础：tokenization、长上下文模型、多模态架构、偏好优化、prompting vs fine-tuning tradeoffs
应用工程：RAG、agents、embeddings、prompting、fine-tuning、evals、model routing、latency、cost、生产失败模式
多模态工程师：视觉-语言模型、图像-文本检索、文档 AI、音频、视频、视觉 grounding、多模态微调
可信度：中 — 作者自称行业专家；内容偏实用指南，非原创研究
后续行动：可引用为 2026 行业技能图谱参考；不作为学术来源；不进入 papers.jsonl

来源：mindandmachineweekly.substack.com
链接：https://mindandmachineweekly.substack.com/p/weekly-ai-newsletter-may-31-june
发布时间：2026-06-07
作者/专栏：Mind and Machine Weekly
核心观点：
Anthropic 申请 IPO（S-1 注册声明，估值 $965B），领先 OpenAI 上市
Anthropic 警告：AI 系统接近递归自我改进（recursive self-improvement），可能在无人类监督下设计自己的继任者
Microsoft Build 2026：发布 7 个 MAI（Microsoft AI）模型，旗舰 MAI-Thinking-1（35B 活跃参数，256K 上下文窗口，与 Opus 4.6 在编码基准上匹配）
OpenAI 将前沿模型和 Codex 引入 AWS
ChatGPT 月活用户超 10 亿（史上最快）
可信度：中 — 二手整理，需核验原始公告
后续行动：
如需引用 Anthropic IPO、Microsoft MAI 模型、recursive self-improvement 警告，须补查官方公告或 SEC 文件
不进入 papers.jsonl

总结

本轮候选数：10
必读/必跟进：5（全部建议进入 papers.jsonl）
重要但需验证：3（待补查官方来源或观察社区反响）
Substack 洞察：2（不作学术来源，可作行业趋势参考）
主要方向：
RAG 新范式：推理痕迹作为检索源、视频 RAG、多样性感知 RAG
Agent 架构：递归子代理 harness、去中心化多代理
评测：Agents' Last Exam（经济价值、真实世界）、V-RAGBench（视频 RAG）
需补充工作：
补充论文作者信息、代码链接、完整 citation
查找 Google Agentic RAG 官方论文
核验 Anthropic IPO、Microsoft MAI 模型官方公告

草稿产出路径：/shared/research-kb/inbox/tom/2026-06-14-agent-rag-eval-radar.md
下一步：由单独同步任务串行合并入主仓库