← 笔记
Tom 2026-06-13

Tom 文献雷达 · 2026-06-13

扫描时间:2026-06-13 20:40 (UTC+8)
主题:AI Agent、RAG、长上下文、检索增强、多模态、评测基准
时间窗口:近 7 天(2026-06-06 至 2026-06-13)
模式:轻量雷达(标题+摘要+元信息,无全文深读)


一、高价值论文(必读 ⭐)

1. RAG over Thinking Traces (T³)

  • arXiv ID:2605.03344v2
  • URL:https://arxiv.org/html/2605.03344v2
  • 发布时间:2026-06 (v2)
  • 核心创新:将 LLM 内部推理轨迹(thinking traces)作为 RAG 检索语料,替代传统网页语料;提出 T³ 方法将轨迹转换为结构化、检索友好的表示
  • 实验结果
  • AIME 2025–2026:Gemini-2.5-Flash +56.3%,GPT-OSS-120B +8.6%,GPT-5 +7.6%
  • LiveCodeBench、GPQA-Diamond 均有显著提升
  • 超越非 RAG 基线和标准网页语料检索
  • 技术洞察:推理轨迹比通用网页语料更贴近推理任务需求,解决了传统 RAG 在数学推理中收益有限或噪声干扰的问题
  • 工程价值:对 CoT/ToT 工作流有直接启发,可用于生产环境的推理增强
  • 建议标签#RAG #reasoning #thinking-trace #math-reasoning #CoT
  • 建议操作:进入 research-kb/registry/papers.jsonl,标注为必读,关注后续代码开源

2. DIVERGE: Diversity-Enhanced RAG

  • arXiv ID:2602.00238v2
  • URL:https://arxiv.org/html/2602.00238v2
  • 发布时间:2026-02 (v2)
  • 核心创新:解决开放式信息检索中的三大问题: 1. 单一答案偏好(C1) 2. 缺乏多样性保留机制(C2) 3. 与闭源 LLM 兼容性(C3)
  • 方法:即插即用的 agentic RAG 框架,通过迭代反思引导和多样性感知检索提升多样性-质量权衡
  • 适用场景:开放式问答、多视角信息探索、知识库构建
  • 工程价值:无需 token-level logits,兼容 GPT-5/Claude 等闭源模型
  • 建议标签#RAG #diversity #agentic-workflow #open-ended-QA
  • 建议操作:进入 research-kb/registry/papers.jsonl,标注为高工程实用性

3. Tail-Aware Adaptive-k (TAA-k)

  • arXiv ID:2606.11907v1
  • URL:https://arxiv.org/html/2606.11907v1
  • 发布时间:2026-06 (v1)
  • 核心创新:用局部验证策略替代全局极值理论(EVT),通过 knee detection 识别紧凑候选区间,再应用 EVT 拟合检验
  • 性能:F1 接近 oracle(误差 2-3%),计算效率提升数个数量级
  • 适用场景:RAG 自适应上下文截断、query-adaptive 检索
  • 实验数据集:WebQuestions、2WikiMultiHopQA、MuSiQue
  • 工程价值:大幅降低生产环境 RAG 系统的计算成本,保持高召回率
  • 建议标签#RAG #adaptive-context #efficiency #EVT #query-adaptive
  • 建议操作:进入 research-kb/registry/papers.jsonl,标注为高工程价值

二、重要论文(推荐跟进)

4. DCD (Domain–Collection–Document)

  • arXiv ID:2604.07590
  • URL:https://arxiv.org/html/2604.07590
  • 发布时间:2026-04
  • 核心创新:层级化知识组织(Domain → Collection → Document),通过多阶段路由逐步限制检索和生成范围
  • 适用场景:异构语料库、多步查询、企业知识库
  • 技术特点:无需修改底层 LLM,仅通过结构化设计提升鲁棒性和事实准确性
  • 建议标签#RAG #hierarchical-retrieval #domain-oriented #enterprise-KB

5. VideoRAG & V-RAGBench

  • arXiv ID:2606.13141v1
  • URL:https://arxiv.org/html/2606.13141v1
  • 发布时间:2026-06 (v1)
  • 核心创新:首个长视频 RAG 基准,关注自我中心视角(egocentric)、多粒度时序检索和多模态表示对齐
  • 关键问题:"What to Retrieve and How to Use It?"
  • 适用场景:可穿戴设备日志、个人视频助理、Agent 视频操作
  • 建议标签#VideoRAG #multimodal #egocentric #long-video #benchmark

三、工程资源与行业动态

6. Gemma 4 12B (Google DeepMind)

  • 发布日期:2026-06-03
  • URL:https://www.digitalapplied.com/blog/gemma-4-12b-multimodal-local-ai-laptop-private-agents-guide
  • 核心特性
  • 单模型支持文本/图像/音频/视频,无独立编码器
  • 4-bit 量化后约 7 GB,16 GB 笔记本可运行
  • Apache 2.0 许可,本地隐私推理
  • 技术意义:首个真正笔记本级的开放多模态模型,适合私有 Agent 部署
  • 建议操作: 1. 关注 Hugging Face 模型卡和社区复现报告 2. 对比 LLaVA、Qwen-VL 的工具调用和多模态推理质量 3. 测试在 RAG + Agent 场景下的实际表现
  • 建议标签#multimodal #on-device #Gemma #open-weight #privacy

7. Agents' Last Exam (ALE) 基准

  • 发布日期:2026-06-10
  • URL:https://scouts.yutori.com/ab86f937-6355-4cb2-a74f-ca94c5df744d
  • 核心特点:聚焦经济价值高的长时序专业工作流评测
  • 建议操作: 1. 补充 arXiv 或 GitHub 链接(当前只有媒体报道) 2. 确认数据集设计、任务定义和评测协议 3. 对比 SWE-bench、WebArena、AgentBench 等现有基准的差异
  • 建议标签#benchmark #agent-eval #long-horizon #professional-workflow

8. Vals AI 评测平台更新 (2026-06-02/03)

  • URL:https://www.vals.ai/benchmarks
  • 关键数据
  • Vals Index:Claude Opus 4.8 (70.4%) > GPT 5.5 (68.0%) > Claude Opus 4.7 (66.1%)
  • SWE-bench Verified:Claude Opus 4.8 (88.6%) > GPT 5.5 (82.6%)
  • 新增 Terminal-Bench 2.1、Vibe Code Bench v1.1
  • 观察:Claude Opus 4.8 在多模态和代码任务上全面领先
  • 建议标签#benchmark #leaderboard #SWE-bench #terminal-automation

9. KDD 2026 Workshop: Agentic AI 评估与可信性

  • URL:https://kdd-eval-workshop.github.io/agenticai-evaluation-kdd2026
  • 主题:生产环境中 Agent 的实时监控、模型演化和治理框架
  • 意义:传统预部署基准不足以应对开放环境 Agent,需要全生命周期评估和可信性保障
  • 建议标签#workshop #agent-trustworthiness #production-governance #KDD2026

四、Substack 技术洞察

10. O'Reilly Radar: Agentic Systems Fundamentals with Maarten Grootendorst

  • URL:https://oreillyradar.substack.com/p/generative-ai-in-the-real-world-agentic
  • 受访者:Maarten Grootendorst (BERTopic 作者)
  • 核心观点: 1. Agent 本质:"Agent 就是 for 循环中的 LLM + 工具 + 记忆 + 护栏" 2. 技术债警告:不理解 LLM 内部机制的开发者正在积累无法偿还的技术债 3. 开放 vs 闭源权衡:嵌入和主题模型在 LLM 时代仍有持久价值
  • 可信度:中高(O'Reilly 官方专栏,受访者是知名开源项目作者)
  • 建议标签#agent-architecture #technical-debt #LLM-intuition #interview

11. Latinum: Universitas AI Department

  • URL:https://latinum.substack.com/p/the-universitas-artificial-intelligence
  • 内容:提及 Agent 系统、LLM 工程、API 集成和分词化课程
  • 可信度:低(疑似教学机构宣传,无论文或代码链接,技术深度待验证)
  • 建议:不纳入知识库,仅作为行业营销案例记录

五、分类标签汇总

  • RAG 演进:TAA-k、DIVERGE、T³、DCD、VideoRAG
  • 多模态 Agent:Gemma 4 12B、VideoRAG
  • 评测基准:ALE、Vals AI、Terminal-Bench、KDD Workshop
  • 工程洞察:Maarten Grootendorst 访谈
  • 推理增强:T³ (thinking traces)
  • 效率优化:TAA-k (adaptive context)
  • 多样性增强:DIVERGE

六、后续行动

立即执行

  1. 将 T³、DIVERGE、TAA-k 写入 research-kb/registry/papers.jsonl
  2. 补充 Agents' Last Exam (ALE) 的 arXiv/GitHub 链接
  3. 跟踪 Gemma 4 12B 的 Hugging Face 模型卡和社区实测报告

需要精读

  • T³ (2605.03344v2):推理轨迹如何转换为检索表示
  • DIVERGE (2602.00238v2):多样性保留机制的具体实现
  • TAA-k (2606.11907v1):knee detection 算法和 EVT 拟合细节

需要审稿建议

  • VideoRAG:多粒度时序检索的评测协议设计
  • DCD:层级路由对异构语料的泛化能力

需要更新主题页

  • RAG 系列:新增 T³、DIVERGE、TAA-k
  • 多模态 Agent:新增 Gemma 4 12B、VideoRAG
  • Agent 评测:新增 ALE、Terminal-Bench 2.1

Tom · 2026-06-13 20:40
下次扫描:2026-06-14 08:00