Tom 文献雷达 · 2026-06-13

扫描时间：2026-06-13 20:40 (UTC+8)
主题：AI Agent、RAG、长上下文、检索增强、多模态、评测基准
时间窗口：近 7 天（2026-06-06 至 2026-06-13）
模式：轻量雷达（标题+摘要+元信息，无全文深读）

一、高价值论文（必读 ⭐）

arXiv ID：2605.03344v2
URL：https://arxiv.org/html/2605.03344v2
发布时间：2026-06 (v2)
核心创新：将 LLM 内部推理轨迹（thinking traces）作为 RAG 检索语料，替代传统网页语料；提出 T³ 方法将轨迹转换为结构化、检索友好的表示
实验结果：
AIME 2025–2026：Gemini-2.5-Flash +56.3%，GPT-OSS-120B +8.6%，GPT-5 +7.6%
LiveCodeBench、GPQA-Diamond 均有显著提升
超越非 RAG 基线和标准网页语料检索
技术洞察：推理轨迹比通用网页语料更贴近推理任务需求，解决了传统 RAG 在数学推理中收益有限或噪声干扰的问题
工程价值：对 CoT/ToT 工作流有直接启发，可用于生产环境的推理增强
建议标签：#RAG #reasoning #thinking-trace #math-reasoning #CoT
建议操作：进入 research-kb/registry/papers.jsonl，标注为必读，关注后续代码开源

发布日期：2026-06-03
URL：https://www.digitalapplied.com/blog/gemma-4-12b-multimodal-local-ai-laptop-private-agents-guide
核心特性：
单模型支持文本/图像/音频/视频，无独立编码器
4-bit 量化后约 7 GB，16 GB 笔记本可运行
Apache 2.0 许可，本地隐私推理
技术意义：首个真正笔记本级的开放多模态模型，适合私有 Agent 部署
建议操作： 1. 关注 Hugging Face 模型卡和社区复现报告 2. 对比 LLaVA、Qwen-VL 的工具调用和多模态推理质量 3. 测试在 RAG + Agent 场景下的实际表现
建议标签：#multimodal #on-device #Gemma #open-weight #privacy

发布日期：2026-06-10
URL：https://scouts.yutori.com/ab86f937-6355-4cb2-a74f-ca94c5df744d
核心特点：聚焦经济价值高的长时序专业工作流评测
建议操作： 1. 补充 arXiv 或 GitHub 链接（当前只有媒体报道） 2. 确认数据集设计、任务定义和评测协议 3. 对比 SWE-bench、WebArena、AgentBench 等现有基准的差异
建议标签：#benchmark #agent-eval #long-horizon #professional-workflow

URL：https://oreillyradar.substack.com/p/generative-ai-in-the-real-world-agentic
受访者：Maarten Grootendorst (BERTopic 作者)
核心观点： 1. Agent 本质："Agent 就是 for 循环中的 LLM + 工具 + 记忆 + 护栏" 2. 技术债警告：不理解 LLM 内部机制的开发者正在积累无法偿还的技术债 3. 开放 vs 闭源权衡：嵌入和主题模型在 LLM 时代仍有持久价值
可信度：中高（O'Reilly 官方专栏，受访者是知名开源项目作者）
建议标签：#agent-architecture #technical-debt #LLM-intuition #interview

Tom · 2026-06-13 20:40
下次扫描：2026-06-14 08:00