Tom 文献雷达 · 2026-06-13
扫描时间:2026-06-13 20:40 (UTC+8)
主题:AI Agent、RAG、长上下文、检索增强、多模态、评测基准
时间窗口:近 7 天(2026-06-06 至 2026-06-13)
模式:轻量雷达(标题+摘要+元信息,无全文深读)
一、高价值论文(必读 ⭐)
1. RAG over Thinking Traces (T³)
- arXiv ID:2605.03344v2
- URL:https://arxiv.org/html/2605.03344v2
- 发布时间:2026-06 (v2)
- 核心创新:将 LLM 内部推理轨迹(thinking traces)作为 RAG 检索语料,替代传统网页语料;提出 T³ 方法将轨迹转换为结构化、检索友好的表示
- 实验结果:
- AIME 2025–2026:Gemini-2.5-Flash +56.3%,GPT-OSS-120B +8.6%,GPT-5 +7.6%
- LiveCodeBench、GPQA-Diamond 均有显著提升
- 超越非 RAG 基线和标准网页语料检索
- 技术洞察:推理轨迹比通用网页语料更贴近推理任务需求,解决了传统 RAG 在数学推理中收益有限或噪声干扰的问题
- 工程价值:对 CoT/ToT 工作流有直接启发,可用于生产环境的推理增强
- 建议标签:
#RAG #reasoning #thinking-trace #math-reasoning #CoT - 建议操作:进入
research-kb/registry/papers.jsonl,标注为必读,关注后续代码开源
2. DIVERGE: Diversity-Enhanced RAG
- arXiv ID:2602.00238v2
- URL:https://arxiv.org/html/2602.00238v2
- 发布时间:2026-02 (v2)
- 核心创新:解决开放式信息检索中的三大问题: 1. 单一答案偏好(C1) 2. 缺乏多样性保留机制(C2) 3. 与闭源 LLM 兼容性(C3)
- 方法:即插即用的 agentic RAG 框架,通过迭代反思引导和多样性感知检索提升多样性-质量权衡
- 适用场景:开放式问答、多视角信息探索、知识库构建
- 工程价值:无需 token-level logits,兼容 GPT-5/Claude 等闭源模型
- 建议标签:
#RAG #diversity #agentic-workflow #open-ended-QA - 建议操作:进入
research-kb/registry/papers.jsonl,标注为高工程实用性
3. Tail-Aware Adaptive-k (TAA-k)
- arXiv ID:2606.11907v1
- URL:https://arxiv.org/html/2606.11907v1
- 发布时间:2026-06 (v1)
- 核心创新:用局部验证策略替代全局极值理论(EVT),通过 knee detection 识别紧凑候选区间,再应用 EVT 拟合检验
- 性能:F1 接近 oracle(误差 2-3%),计算效率提升数个数量级
- 适用场景:RAG 自适应上下文截断、query-adaptive 检索
- 实验数据集:WebQuestions、2WikiMultiHopQA、MuSiQue
- 工程价值:大幅降低生产环境 RAG 系统的计算成本,保持高召回率
- 建议标签:
#RAG #adaptive-context #efficiency #EVT #query-adaptive - 建议操作:进入
research-kb/registry/papers.jsonl,标注为高工程价值
二、重要论文(推荐跟进)
4. DCD (Domain–Collection–Document)
- arXiv ID:2604.07590
- URL:https://arxiv.org/html/2604.07590
- 发布时间:2026-04
- 核心创新:层级化知识组织(Domain → Collection → Document),通过多阶段路由逐步限制检索和生成范围
- 适用场景:异构语料库、多步查询、企业知识库
- 技术特点:无需修改底层 LLM,仅通过结构化设计提升鲁棒性和事实准确性
- 建议标签:
#RAG #hierarchical-retrieval #domain-oriented #enterprise-KB
5. VideoRAG & V-RAGBench
- arXiv ID:2606.13141v1
- URL:https://arxiv.org/html/2606.13141v1
- 发布时间:2026-06 (v1)
- 核心创新:首个长视频 RAG 基准,关注自我中心视角(egocentric)、多粒度时序检索和多模态表示对齐
- 关键问题:"What to Retrieve and How to Use It?"
- 适用场景:可穿戴设备日志、个人视频助理、Agent 视频操作
- 建议标签:
#VideoRAG #multimodal #egocentric #long-video #benchmark
三、工程资源与行业动态
6. Gemma 4 12B (Google DeepMind)
- 发布日期:2026-06-03
- URL:https://www.digitalapplied.com/blog/gemma-4-12b-multimodal-local-ai-laptop-private-agents-guide
- 核心特性:
- 单模型支持文本/图像/音频/视频,无独立编码器
- 4-bit 量化后约 7 GB,16 GB 笔记本可运行
- Apache 2.0 许可,本地隐私推理
- 技术意义:首个真正笔记本级的开放多模态模型,适合私有 Agent 部署
- 建议操作: 1. 关注 Hugging Face 模型卡和社区复现报告 2. 对比 LLaVA、Qwen-VL 的工具调用和多模态推理质量 3. 测试在 RAG + Agent 场景下的实际表现
- 建议标签:
#multimodal #on-device #Gemma #open-weight #privacy
7. Agents' Last Exam (ALE) 基准
- 发布日期:2026-06-10
- URL:https://scouts.yutori.com/ab86f937-6355-4cb2-a74f-ca94c5df744d
- 核心特点:聚焦经济价值高的长时序专业工作流评测
- 建议操作: 1. 补充 arXiv 或 GitHub 链接(当前只有媒体报道) 2. 确认数据集设计、任务定义和评测协议 3. 对比 SWE-bench、WebArena、AgentBench 等现有基准的差异
- 建议标签:
#benchmark #agent-eval #long-horizon #professional-workflow
8. Vals AI 评测平台更新 (2026-06-02/03)
- URL:https://www.vals.ai/benchmarks
- 关键数据:
- Vals Index:Claude Opus 4.8 (70.4%) > GPT 5.5 (68.0%) > Claude Opus 4.7 (66.1%)
- SWE-bench Verified:Claude Opus 4.8 (88.6%) > GPT 5.5 (82.6%)
- 新增 Terminal-Bench 2.1、Vibe Code Bench v1.1
- 观察:Claude Opus 4.8 在多模态和代码任务上全面领先
- 建议标签:
#benchmark #leaderboard #SWE-bench #terminal-automation
9. KDD 2026 Workshop: Agentic AI 评估与可信性
- URL:https://kdd-eval-workshop.github.io/agenticai-evaluation-kdd2026
- 主题:生产环境中 Agent 的实时监控、模型演化和治理框架
- 意义:传统预部署基准不足以应对开放环境 Agent,需要全生命周期评估和可信性保障
- 建议标签:
#workshop #agent-trustworthiness #production-governance #KDD2026
四、Substack 技术洞察
10. O'Reilly Radar: Agentic Systems Fundamentals with Maarten Grootendorst
- URL:https://oreillyradar.substack.com/p/generative-ai-in-the-real-world-agentic
- 受访者:Maarten Grootendorst (BERTopic 作者)
- 核心观点: 1. Agent 本质:"Agent 就是 for 循环中的 LLM + 工具 + 记忆 + 护栏" 2. 技术债警告:不理解 LLM 内部机制的开发者正在积累无法偿还的技术债 3. 开放 vs 闭源权衡:嵌入和主题模型在 LLM 时代仍有持久价值
- 可信度:中高(O'Reilly 官方专栏,受访者是知名开源项目作者)
- 建议标签:
#agent-architecture #technical-debt #LLM-intuition #interview
11. Latinum: Universitas AI Department
- URL:https://latinum.substack.com/p/the-universitas-artificial-intelligence
- 内容:提及 Agent 系统、LLM 工程、API 集成和分词化课程
- 可信度:低(疑似教学机构宣传,无论文或代码链接,技术深度待验证)
- 建议:不纳入知识库,仅作为行业营销案例记录
五、分类标签汇总
- RAG 演进:TAA-k、DIVERGE、T³、DCD、VideoRAG
- 多模态 Agent:Gemma 4 12B、VideoRAG
- 评测基准:ALE、Vals AI、Terminal-Bench、KDD Workshop
- 工程洞察:Maarten Grootendorst 访谈
- 推理增强:T³ (thinking traces)
- 效率优化:TAA-k (adaptive context)
- 多样性增强:DIVERGE
六、后续行动
立即执行
- 将 T³、DIVERGE、TAA-k 写入
research-kb/registry/papers.jsonl - 补充 Agents' Last Exam (ALE) 的 arXiv/GitHub 链接
- 跟踪 Gemma 4 12B 的 Hugging Face 模型卡和社区实测报告
需要精读
- T³ (2605.03344v2):推理轨迹如何转换为检索表示
- DIVERGE (2602.00238v2):多样性保留机制的具体实现
- TAA-k (2606.11907v1):knee detection 算法和 EVT 拟合细节
需要审稿建议
- VideoRAG:多粒度时序检索的评测协议设计
- DCD:层级路由对异构语料的泛化能力
需要更新主题页
- RAG 系列:新增 T³、DIVERGE、TAA-k
- 多模态 Agent:新增 Gemma 4 12B、VideoRAG
- Agent 评测:新增 ALE、Terminal-Bench 2.1
Tom · 2026-06-13 20:40
下次扫描:2026-06-14 08:00