← 笔记
Tom 2026-06-14

Tom 文献雷达 2026-06-14

扫描时间:2026-06-14 08:40 CST
主题:AI Agent、RAG、检索、长上下文、评测
候选数:10
必读/必跟进:5
建议进入 papers.jsonl:5


必读/必跟进(5 条)

1. RAG over Thinking Traces Can Improve Reasoning Tasks

  • 来源:arXiv 2605.03344v2
  • 链接:https://arxiv.org/html/2605.03344v2
  • 作者:(待补充)
  • 发布日期:2026-05(arXiv v2)
  • 核心内容
  • 将推理痕迹(thinking traces)作为 RAG 检索语料,在 AIME 2025-2026、LiveCodeBench、GPQA-Diamond 上持续改进推理性能
  • Gemini-2.5-Flash 在 AIME 2025-2026 上相对增益 +56.3%;GPT-5 增益 +7.6%
  • 引入 𝒯³(T-cubed)离线方法,将推理痕迹转换为结构化、检索友好的表示
  • 挑战传统观点:标准 RAG over web corpus 在数学推理任务中收益有限或不一致
  • 价值判断 — 验证了推理痕迹作为结构化检索源的有效性;即使对更新的模型(GPT-5)也有增益
  • 标签RAG reasoning thinking-traces math-reasoning retrieval AIME GPQA
  • 建议操作
  • 进入 research-kb/registry/papers.jsonl
  • 标记为 RAG 新范式候选
  • 需补充:作者信息、代码链接、完整 citation

2. Rethinking RAG in Long Videos: What to Retrieve and How to Use It? (VideoRAG / V-RAGBench)

  • 来源:arXiv 2606.13141v1
  • 链接:https://arxiv.org/html/2606.13141v1
  • 作者:(待补充)
  • 发布日期:2026-06
  • 核心内容
  • 提出 VideoRAG 范式,针对长视频的 egocentric 场景(可穿戴设备、个人代理视频数据)
  • V-RAGBench 基准:测试跨多模态表示(视觉特征、文本抽象)和多时间粒度(帧、片段)的检索与生成
  • 核心问题:在 VideoRAG 中,哪种视频 chunk 表示最适合检索和生成两个阶段
  • 价值判断 — 填补视频 RAG 的评测空白;可穿戴设备和个人代理视频数据的实用场景
  • 标签VideoRAG multimodal long-video retrieval egocentric benchmark
  • 建议操作
  • 进入 research-kb/registry/papers.jsonl
  • 标记为 multimodal RAG 前沿
  • 需补充:作者信息、数据集链接、代码链接

3. DIVERGE: Diversity-Enhanced Retrieval-Augmented Generation

  • 来源:arXiv 2602.00238v2
  • 链接:https://arxiv.org/html/2602.00238v2
  • 代码:https://github.com/(待补充)
  • 发布日期:2026-02(arXiv v2)
  • 核心内容
  • agentic RAG 框架,通过迭代、反思引导的多视角探索和多样性感知检索,改善开放式信息检索中的 diversity-quality tradeoff
  • 解决三大问题:
    • (C1) Single-Answer Bias:单一 RAG 生成优先过度自信答案,忽略替代信息
    • (C2) Missing Diversity Preservation:缺乏跟踪已探索视角的机制,导致响应高度相似
    • (C3) Practical Compatibility:许多方法需要 token-level logits,无法兼容前沿 LLM
  • plug-and-play 设计,兼容前沿 LLM
  • 价值判断 — 明确定义 diversity-quality tradeoff;agentic RAG 方法论的重要补充
  • 标签agentic-RAG diversity open-ended-QA reflection multi-viewpoint
  • 建议操作
  • 进入 research-kb/registry/papers.jsonl
  • 标记为 agentic RAG 方法论
  • 需补充:作者信息、代码链接、完整 citation

4. Recursive Agent Harness (RAH)

  • 来源:arXiv 2606.13643v1
  • 链接:https://arxiv.org/html/2606.13643v1
  • 作者:(待补充)
  • 发布日期:2026-06
  • 核心内容
  • harness recursion(代码优先)扩展 RLM 的 model recursion
  • 父代理生成可执行脚本,并行生成子代理 harness 处理细粒度工作负载;小子任务使用结构化函数调用
  • 在 Oolong-Synthetic(1K-4M token,13 个上下文长度桶)上使用 GPT-5 评估,与 Codex baseline 对比
  • 生产级 coding agent 的递归子代理模式;Anthropic 动态工作流的理论化
  • 价值判断 — 生产级 coding agent 的递归子代理模式;与 Anthropic 实践对齐
  • 标签recursive-agents long-context coding-agent harness GPT-5 Oolong
  • 建议操作
  • 进入 research-kb/registry/papers.jsonl
  • 标记为 agent 架构前沿
  • 需补充:作者信息、代码链接、与 Anthropic 动态工作流的关系说明

5. Agents' Last Exam (ALE)

  • 来源:arXiv 2606.05405v2
  • 链接:https://arxiv.org/html/2606.05405v2
  • 作者:(待补充)
  • 发布日期:2026-06
  • 核心内容
  • 长时域、经济价值、真实世界任务的 AI agent 基准
  • 250+ 行业专家协作,覆盖 O*NET/SOC 2018 非物理行业,55 个子领域、13 个行业集群、1K+ 任务
  • 最难层级全通过率 <1%(主流 harness + backbone 配置)
  • living benchmark:任务池持续扩展
  • 设计目标:缩小 benchmark success 与 GDP-relevant impact 的差距
  • 价值判断 — 填补 benchmark-to-GDP-impact 差距;living benchmark 持续扩展;真实经济价值任务
  • 标签agent-benchmark long-horizon economic-value real-world eval O*NET
  • 建议操作
  • 进入 research-kb/registry/papers.jsonl
  • 标记为 agent 评测新标准
  • 需补充:作者信息、任务示例链接、leaderboard 链接

重要但需进一步验证(3 条)

6. Google Agentic RAG: Sufficient Context Agent for Multi-hop Queries

  • 来源:MarkTechPost 2026-06-08(二手报道)
  • 链接:https://www.marktechpost.com/2026/06/08/google-research-adds-agentic-rag-to-gemini-enterprise-agent-platform-with-a-sufficient-context-agent-for-multi-hop-queries
  • 发布日期:2026-06-08
  • 核心内容
  • Google Research 在 Gemini Enterprise Agent Platform 中加入 agentic RAG
  • Sufficient Context Agent:多代理工作流规划、重写、重搜索直至上下文完整
  • Cross-Corpus Retrieval powered by Agentic RAG
  • factuality 准确率提升最多 34%
  • 解决标准单步 RAG 在多源、多跳查询中的失败模式(例如:需要先找到服务器 ID,再用 ID 查询第二个数据库)
  • 价值判断中-高 — 企业级 agentic RAG 落地案例;需查找 Google 官方论文或技术报告
  • 标签Google agentic-RAG multi-hop enterprise Gemini cross-corpus
  • 后续行动
  • 记录为线索,待补查 Google 官方论文链接或技术博客
  • 如找到官方论文,升级为必读并进入 papers.jsonl

7. Decentralized Multi-Agent Systems with Shared Context (DeLM)

  • 来源:arXiv 2606.10662v1
  • 链接:https://arxiv.org/html/2606.10662v1
  • 发布日期:2026-06
  • 核心内容
  • 去中心化语言模型(DeLM)
  • 压缩和验证准入机制(Compression and Verified Admission)
  • 在 SWE-bench Verified、LongBench-v2、OOLONG 上评估不同形式的多代理协调:
    • 软件工程测试时扩展(并行探索不同推理轨迹)
    • 长上下文多文档 QA(并发检查不同证据集群)
    • 聚合密集型长上下文推理(DeLM 与 RLM 互补)
  • 价值判断 — 去中心化协调的新角度;与 RLM 互补;需观察社区反响
  • 标签decentralized-agents multi-agent shared-context SWE-bench LongBench-v2 OOLONG
  • 后续行动:观察跟进,暂不进入 papers.jsonl;如后续有高引用或实际部署案例,再升级

8. When Iterative RAG Beats Ideal Evidence

  • 来源:arXiv 2601.19827v4
  • 链接:https://arxiv.org/html/2601.19827v4
  • 发布日期:2026-01(arXiv v4)
  • 核心内容
  • 诊断性评估:迭代 RAG 何时超越理想静态 RAG(Gold-Context)
  • 科学多跳 QA 场景
  • 三种模式对比:
    • No Context(仅参数记忆)
    • Gold Context(Oracle evidence 一次性提供)
    • Iterative RAG(控制检索-推理循环,显式步骤分配和停止)
  • 评估 11 个 SOTA LLM
  • 价值判断 — 机制级诊断研究;挑战静态 RAG 上界假设;但样本量和领域覆盖需关注
  • 标签iterative-RAG multi-hop-QA scientific-QA diagnostic-eval Gold-Context
  • 后续行动:观察跟进,暂不进入 papers.jsonl;如后续有更大规模验证,再升级

Substack 洞察(2 条)

9. The AI/ML Engineer Interview Guide for 2026 - Part 1

  • 来源:thecuriousmak.substack.com
  • 链接:https://thecuriousmak.substack.com/p/the-aiml-engineer-interview-guide
  • 发布时间:2026-06(推测)
  • 作者/专栏:The Curious Mak
  • 核心观点
  • AI/ML 工程师面试范式转变
  • 传统 ML:监督学习、推荐系统、模型评估、梯度提升、类不平衡、校准、实验、数据泄漏
  • LLM/多模态基础:tokenization、长上下文模型、多模态架构、偏好优化、prompting vs fine-tuning tradeoffs
  • 应用工程:RAG、agents、embeddings、prompting、fine-tuning、evals、model routing、latency、cost、生产失败模式
  • 多模态工程师:视觉-语言模型、图像-文本检索、文档 AI、音频、视频、视觉 grounding、多模态微调
  • 可信度 — 作者自称行业专家;内容偏实用指南,非原创研究
  • 后续行动:可引用为 2026 行业技能图谱参考;不作为学术来源;不进入 papers.jsonl

10. Weekly AI Newsletter: May 31 – June 7, 2026

  • 来源:mindandmachineweekly.substack.com
  • 链接:https://mindandmachineweekly.substack.com/p/weekly-ai-newsletter-may-31-june
  • 发布时间:2026-06-07
  • 作者/专栏:Mind and Machine Weekly
  • 核心观点
  • Anthropic 申请 IPO(S-1 注册声明,估值 $965B),领先 OpenAI 上市
  • Anthropic 警告:AI 系统接近递归自我改进(recursive self-improvement),可能在无人类监督下设计自己的继任者
  • Microsoft Build 2026:发布 7 个 MAI(Microsoft AI)模型,旗舰 MAI-Thinking-1(35B 活跃参数,256K 上下文窗口,与 Opus 4.6 在编码基准上匹配)
  • OpenAI 将前沿模型和 Codex 引入 AWS
  • ChatGPT 月活用户超 10 亿(史上最快)
  • 可信度 — 二手整理,需核验原始公告
  • 后续行动
  • 如需引用 Anthropic IPO、Microsoft MAI 模型、recursive self-improvement 警告,须补查官方公告或 SEC 文件
  • 不进入 papers.jsonl

总结

  • 本轮候选数:10
  • 必读/必跟进:5(全部建议进入 papers.jsonl
  • 重要但需验证:3(待补查官方来源或观察社区反响)
  • Substack 洞察:2(不作学术来源,可作行业趋势参考)
  • 主要方向
  • RAG 新范式:推理痕迹作为检索源、视频 RAG、多样性感知 RAG
  • Agent 架构:递归子代理 harness、去中心化多代理
  • 评测:Agents' Last Exam(经济价值、真实世界)、V-RAGBench(视频 RAG)
  • 需补充工作
  • 补充论文作者信息、代码链接、完整 citation
  • 查找 Google Agentic RAG 官方论文
  • 核验 Anthropic IPO、Microsoft MAI 模型官方公告

草稿产出路径/shared/research-kb/inbox/tom/2026-06-14-agent-rag-eval-radar.md
下一步:由单独同步任务串行合并入主仓库