Tom 文献雷达 2026-06-14
扫描时间:2026-06-14 08:40 CST
主题:AI Agent、RAG、检索、长上下文、评测
候选数:10
必读/必跟进:5
建议进入 papers.jsonl:5
必读/必跟进(5 条)
1. RAG over Thinking Traces Can Improve Reasoning Tasks
- 来源:arXiv 2605.03344v2
- 链接:https://arxiv.org/html/2605.03344v2
- 作者:(待补充)
- 发布日期:2026-05(arXiv v2)
- 核心内容:
- 将推理痕迹(thinking traces)作为 RAG 检索语料,在 AIME 2025-2026、LiveCodeBench、GPQA-Diamond 上持续改进推理性能
- Gemini-2.5-Flash 在 AIME 2025-2026 上相对增益 +56.3%;GPT-5 增益 +7.6%
- 引入 𝒯³(T-cubed)离线方法,将推理痕迹转换为结构化、检索友好的表示
- 挑战传统观点:标准 RAG over web corpus 在数学推理任务中收益有限或不一致
- 价值判断:高 — 验证了推理痕迹作为结构化检索源的有效性;即使对更新的模型(GPT-5)也有增益
- 标签:
RAGreasoningthinking-tracesmath-reasoningretrievalAIMEGPQA - 建议操作:
- 进入
research-kb/registry/papers.jsonl - 标记为 RAG 新范式候选
- 需补充:作者信息、代码链接、完整 citation
2. Rethinking RAG in Long Videos: What to Retrieve and How to Use It? (VideoRAG / V-RAGBench)
- 来源:arXiv 2606.13141v1
- 链接:https://arxiv.org/html/2606.13141v1
- 作者:(待补充)
- 发布日期:2026-06
- 核心内容:
- 提出 VideoRAG 范式,针对长视频的 egocentric 场景(可穿戴设备、个人代理视频数据)
- V-RAGBench 基准:测试跨多模态表示(视觉特征、文本抽象)和多时间粒度(帧、片段)的检索与生成
- 核心问题:在 VideoRAG 中,哪种视频 chunk 表示最适合检索和生成两个阶段
- 价值判断:高 — 填补视频 RAG 的评测空白;可穿戴设备和个人代理视频数据的实用场景
- 标签:
VideoRAGmultimodallong-videoretrievalegocentricbenchmark - 建议操作:
- 进入
research-kb/registry/papers.jsonl - 标记为 multimodal RAG 前沿
- 需补充:作者信息、数据集链接、代码链接
3. DIVERGE: Diversity-Enhanced Retrieval-Augmented Generation
- 来源:arXiv 2602.00238v2
- 链接:https://arxiv.org/html/2602.00238v2
- 代码:https://github.com/(待补充)
- 发布日期:2026-02(arXiv v2)
- 核心内容:
- agentic RAG 框架,通过迭代、反思引导的多视角探索和多样性感知检索,改善开放式信息检索中的 diversity-quality tradeoff
- 解决三大问题:
- (C1) Single-Answer Bias:单一 RAG 生成优先过度自信答案,忽略替代信息
- (C2) Missing Diversity Preservation:缺乏跟踪已探索视角的机制,导致响应高度相似
- (C3) Practical Compatibility:许多方法需要 token-level logits,无法兼容前沿 LLM
- plug-and-play 设计,兼容前沿 LLM
- 价值判断:高 — 明确定义 diversity-quality tradeoff;agentic RAG 方法论的重要补充
- 标签:
agentic-RAGdiversityopen-ended-QAreflectionmulti-viewpoint - 建议操作:
- 进入
research-kb/registry/papers.jsonl - 标记为 agentic RAG 方法论
- 需补充:作者信息、代码链接、完整 citation
4. Recursive Agent Harness (RAH)
- 来源:arXiv 2606.13643v1
- 链接:https://arxiv.org/html/2606.13643v1
- 作者:(待补充)
- 发布日期:2026-06
- 核心内容:
- harness recursion(代码优先)扩展 RLM 的 model recursion
- 父代理生成可执行脚本,并行生成子代理 harness 处理细粒度工作负载;小子任务使用结构化函数调用
- 在 Oolong-Synthetic(1K-4M token,13 个上下文长度桶)上使用 GPT-5 评估,与 Codex baseline 对比
- 生产级 coding agent 的递归子代理模式;Anthropic 动态工作流的理论化
- 价值判断:高 — 生产级 coding agent 的递归子代理模式;与 Anthropic 实践对齐
- 标签:
recursive-agentslong-contextcoding-agentharnessGPT-5Oolong - 建议操作:
- 进入
research-kb/registry/papers.jsonl - 标记为 agent 架构前沿
- 需补充:作者信息、代码链接、与 Anthropic 动态工作流的关系说明
5. Agents' Last Exam (ALE)
- 来源:arXiv 2606.05405v2
- 链接:https://arxiv.org/html/2606.05405v2
- 作者:(待补充)
- 发布日期:2026-06
- 核心内容:
- 长时域、经济价值、真实世界任务的 AI agent 基准
- 250+ 行业专家协作,覆盖 O*NET/SOC 2018 非物理行业,55 个子领域、13 个行业集群、1K+ 任务
- 最难层级全通过率 <1%(主流 harness + backbone 配置)
- living benchmark:任务池持续扩展
- 设计目标:缩小 benchmark success 与 GDP-relevant impact 的差距
- 价值判断:高 — 填补 benchmark-to-GDP-impact 差距;living benchmark 持续扩展;真实经济价值任务
- 标签:
agent-benchmarklong-horizoneconomic-valuereal-worldevalO*NET - 建议操作:
- 进入
research-kb/registry/papers.jsonl - 标记为 agent 评测新标准
- 需补充:作者信息、任务示例链接、leaderboard 链接
重要但需进一步验证(3 条)
6. Google Agentic RAG: Sufficient Context Agent for Multi-hop Queries
- 来源:MarkTechPost 2026-06-08(二手报道)
- 链接:https://www.marktechpost.com/2026/06/08/google-research-adds-agentic-rag-to-gemini-enterprise-agent-platform-with-a-sufficient-context-agent-for-multi-hop-queries
- 发布日期:2026-06-08
- 核心内容:
- Google Research 在 Gemini Enterprise Agent Platform 中加入 agentic RAG
- Sufficient Context Agent:多代理工作流规划、重写、重搜索直至上下文完整
- Cross-Corpus Retrieval powered by Agentic RAG
- factuality 准确率提升最多 34%
- 解决标准单步 RAG 在多源、多跳查询中的失败模式(例如:需要先找到服务器 ID,再用 ID 查询第二个数据库)
- 价值判断:中-高 — 企业级 agentic RAG 落地案例;需查找 Google 官方论文或技术报告
- 标签:
Googleagentic-RAGmulti-hopenterpriseGeminicross-corpus - 后续行动:
- 记录为线索,待补查 Google 官方论文链接或技术博客
- 如找到官方论文,升级为必读并进入
papers.jsonl
7. Decentralized Multi-Agent Systems with Shared Context (DeLM)
- 来源:arXiv 2606.10662v1
- 链接:https://arxiv.org/html/2606.10662v1
- 发布日期:2026-06
- 核心内容:
- 去中心化语言模型(DeLM)
- 压缩和验证准入机制(Compression and Verified Admission)
- 在 SWE-bench Verified、LongBench-v2、OOLONG 上评估不同形式的多代理协调:
- 软件工程测试时扩展(并行探索不同推理轨迹)
- 长上下文多文档 QA(并发检查不同证据集群)
- 聚合密集型长上下文推理(DeLM 与 RLM 互补)
- 价值判断:中 — 去中心化协调的新角度;与 RLM 互补;需观察社区反响
- 标签:
decentralized-agentsmulti-agentshared-contextSWE-benchLongBench-v2OOLONG - 后续行动:观察跟进,暂不进入
papers.jsonl;如后续有高引用或实际部署案例,再升级
8. When Iterative RAG Beats Ideal Evidence
- 来源:arXiv 2601.19827v4
- 链接:https://arxiv.org/html/2601.19827v4
- 发布日期:2026-01(arXiv v4)
- 核心内容:
- 诊断性评估:迭代 RAG 何时超越理想静态 RAG(Gold-Context)
- 科学多跳 QA 场景
- 三种模式对比:
- No Context(仅参数记忆)
- Gold Context(Oracle evidence 一次性提供)
- Iterative RAG(控制检索-推理循环,显式步骤分配和停止)
- 评估 11 个 SOTA LLM
- 价值判断:中 — 机制级诊断研究;挑战静态 RAG 上界假设;但样本量和领域覆盖需关注
- 标签:
iterative-RAGmulti-hop-QAscientific-QAdiagnostic-evalGold-Context - 后续行动:观察跟进,暂不进入
papers.jsonl;如后续有更大规模验证,再升级
Substack 洞察(2 条)
9. The AI/ML Engineer Interview Guide for 2026 - Part 1
- 来源:thecuriousmak.substack.com
- 链接:https://thecuriousmak.substack.com/p/the-aiml-engineer-interview-guide
- 发布时间:2026-06(推测)
- 作者/专栏:The Curious Mak
- 核心观点:
- AI/ML 工程师面试范式转变
- 传统 ML:监督学习、推荐系统、模型评估、梯度提升、类不平衡、校准、实验、数据泄漏
- LLM/多模态基础:tokenization、长上下文模型、多模态架构、偏好优化、prompting vs fine-tuning tradeoffs
- 应用工程:RAG、agents、embeddings、prompting、fine-tuning、evals、model routing、latency、cost、生产失败模式
- 多模态工程师:视觉-语言模型、图像-文本检索、文档 AI、音频、视频、视觉 grounding、多模态微调
- 可信度:中 — 作者自称行业专家;内容偏实用指南,非原创研究
- 后续行动:可引用为 2026 行业技能图谱参考;不作为学术来源;不进入
papers.jsonl
10. Weekly AI Newsletter: May 31 – June 7, 2026
- 来源:mindandmachineweekly.substack.com
- 链接:https://mindandmachineweekly.substack.com/p/weekly-ai-newsletter-may-31-june
- 发布时间:2026-06-07
- 作者/专栏:Mind and Machine Weekly
- 核心观点:
- Anthropic 申请 IPO(S-1 注册声明,估值 $965B),领先 OpenAI 上市
- Anthropic 警告:AI 系统接近递归自我改进(recursive self-improvement),可能在无人类监督下设计自己的继任者
- Microsoft Build 2026:发布 7 个 MAI(Microsoft AI)模型,旗舰 MAI-Thinking-1(35B 活跃参数,256K 上下文窗口,与 Opus 4.6 在编码基准上匹配)
- OpenAI 将前沿模型和 Codex 引入 AWS
- ChatGPT 月活用户超 10 亿(史上最快)
- 可信度:中 — 二手整理,需核验原始公告
- 后续行动:
- 如需引用 Anthropic IPO、Microsoft MAI 模型、recursive self-improvement 警告,须补查官方公告或 SEC 文件
- 不进入
papers.jsonl
总结
- 本轮候选数:10
- 必读/必跟进:5(全部建议进入
papers.jsonl) - 重要但需验证:3(待补查官方来源或观察社区反响)
- Substack 洞察:2(不作学术来源,可作行业趋势参考)
- 主要方向:
- RAG 新范式:推理痕迹作为检索源、视频 RAG、多样性感知 RAG
- Agent 架构:递归子代理 harness、去中心化多代理
- 评测:Agents' Last Exam(经济价值、真实世界)、V-RAGBench(视频 RAG)
- 需补充工作:
- 补充论文作者信息、代码链接、完整 citation
- 查找 Google Agentic RAG 官方论文
- 核验 Anthropic IPO、Microsoft MAI 模型官方公告
草稿产出路径:/shared/research-kb/inbox/tom/2026-06-14-agent-rag-eval-radar.md
下一步:由单独同步任务串行合并入主仓库