知识库简报 · Jay · 2026-06-18 下午 1:35 UTC+8
本次主题: Agentic RAG 系统架构 · Agent Harness 工程实践 · Compound AI 全面综述 · LLM Memory Governance · 多模态 RAG 不确定性量化 · 2026 GitHub AI 基础设施动态
📌 分类标签
Agentic-RAG Multi-Agent Harness-Engineering Compound-AI Memory-Governance Multimodal-RAG Uncertainty-Quantification GitHub-Trending Substack Backend-AI
一、Agentic RAG 系统架构(本轮新论)
🟢 保留 1:TechRAG — 证据门控多模态 Agentic RAG
- 来源: arXiv
2606.01613v2 - URL: https://arxiv.org/html/2606.01613v2
- 发布时间: 2026-06
- 类型: 系统设计 / Agentic RAG
- 核心观点:
- 提出"证据门控"(Evidence-Gated)多模态 Agentic RAG 架构,区别于传统单遍 RAG
- 完整 pipeline:意图分类 → 文本/视觉查询重写 → BM25+FAISS 混合检索 → 交叉编码重排 → Neo4j 图引导块遍历 → 视觉文档 ColSmol 延迟交互检索 → 100 分rubric 证据充分性评分 → drift-guarded 重试 → Planner/Researcher/Writer/Critic 多 Agent 生成(含自修正)
- 引入可解释的证据充分性评分机制(100 分 rubric,混合规则+LLM 评审)
- 外部学术数据库 optimize–search–vet 循环搜索
- 在 4 万页文档规模上验证
- 工程价值: 高——提供了生产级 Agentic RAG 的完整架构蓝图,证据评分+多 Agent 自修正机制值得借鉴
- 可信度: 高——arXiv 完整描述系统设计,有 Neo4j 图检索集成
- 后续行动: 对照原文核验多 Agent 通信协议设计;评估 Planner/Researcher/Writer/Critic 的协作开销;纳入 Agentic RAG 参考架构
🟢 保留 2:LeMUQ — 多模态 RAG 不确定性量化
- 来源: arXiv
2605.29956v1 - URL: https://arxiv.org/html/2605.29956v1
- 发布时间: 2026-05
- 类型: 学术研究 / RAG 可靠性
- 核心观点:
- 现有 UQ 方法专为纯文本设计,在多模态 RAG 场景表现差
- 提出 LeMUQ(Learnable Multimodal UQ):在输入修改下分析 token 概率(如移除模态或检索上下文)
- 建模多模态+检索感知的概率信号来估计不确定性
- 跨不同检索设置和 VLM 有良好泛化性
- 工程价值: 高——多模态 RAG 生产部署的关键痛点:如何知道模型"不知道";不确定性量化是生产监控的基础
- 可信度: 高——方法论完整,有跨 VLM 迁移实验
- 后续行动: 对照原文核验 LeMUQ 与纯文本 UQ 方法(如 P(true)、verbalized uncertainty)的量化对比数据;纳入 RAG 评测方法论参考
🟢 保留 3:OmniRAG-Agent — 低资源长音视频问答的 Agentic 多模态推理
- 来源: arXiv
2602.03707v4 - URL: https://arxiv.org/html/2602.03707v4
- 发布时间: 2026-02(v4 更新)
- 类型: 学术研究 / 多模态推理
- 核心观点:
- 针对低资源长音视频推理的高效方案(budgeted long audio-video reasoning)
- 解决 dense encoding 成本高、细粒度检索弱、主动规划不足、端到端优化难四大问题
- Agentic 框架在有限算力下调度多模态理解模块
- 工程价值: 中高——低资源多模态是落地痛点;Agentic 调度策略对边缘部署有参考价值
- 可信度: 中——v4 版本说明持续迭代,需对照原文核验 benchmark 数据
- 后续行动: 核验原文在有限算力下的具体推理效率数据;评估 Agentic 调度策略可复现性
二、Agent Memory 与治理(本轮新论)
🟢 保留 4:SSGM — LLM Agent 记忆稳定性与安全治理框架
- 来源: arXiv
2603.11768v1 - URL: https://arxiv.org/html/2603.11768v1
- 发布时间: 2026-03
- 类型: 框架设计 / Agent 安全
- 核心观点:
- 现代 Agent 从静态 RAG 知识库演进到动态记忆系统,带来记忆治理、语义漂移和隐私泄露风险
- 提出 SSGM(Stability and Safety-Governed Memory)框架:
- 一致性验证(consistency verification)
- 时间衰减建模(temporal decay modeling)
- 动态访问控制(dynamic access control)
- 三者先于记忆整合执行
- 缓解拓扑诱导知识泄露(敏感上下文被固化到长期存储)
- 防止语义漂移(迭代摘要导致知识退化)
- 工程价值: 高——动态记忆是 Agent 生产部署的核心挑战;SSGM 提供了系统化的治理思路
- 可信度: 高——arXiv 完整框架描述,有形式化分析和架构分解
- 后续行动: 精读原文 SSGM 三个子机制的详细设计;纳入 Agent 记忆架构参考;与 Mem0 等开源记忆方案对比
三、Compound AI 系统全面综述(本轮新论)
🟢 保留 5:From Standalone LLMs to Integrated Intelligence — Compound AI 系统综述
- 来源: arXiv
2506.04565v2 - URL: https://arxiv.org/html/2506.04565v2
- 发布时间: 2025-06(2026 更新 v2)
- 类型: 综述论文 / 系统架构
- 核心观点:
- 系统综述 Compound AI Systems(CAIS):LLM + 外部组件(检索器、Agent、工具、编排器)融合
- 四维分类法:基于组件角色和编排策略
- 四大基础范式:RAG、LLM Agent、Multimodal LLM、编排
- 四张结构化对比表:
- RAG retriever paradigms(表2)
- LLM agent reasoning frameworks(表3)
- MLLM architectures(表5)
- 编排框架(表7)
- 覆盖 2024-2026 年主要工作,超越单一组件综述的碎片化问题
- 工程价值: 高——对理解 CAIS 全貌、选型对比、设计系统架构有高参考价值;结构化表格适合快速查阅
- 可信度: 高——arXiv v2 综述,引用体系完整,覆盖面广
- 后续行动: 精读四张对比表格;纳入 AI 系统架构参考;按需查阅各范式设计权衡
四、Agent Harness 工程实践(本轮新发现)
🟢 保留 6:ai-boost/awesome-harness-engineering — Agent Harness 工程全景列表
- 来源: GitHub
ai-boost/awesome-harness-engineering - URL: https://github.com/ai-boost/awesome-harness-engineering
- 发布时间: 持续更新(2026)
- 类型: 工程资源列表 / Agent 基础设施
- 核心观点:
- 系统整理 Agent harness 工程资源:工具、模式、评测、记忆、MCP、权限、可观测性、编排
- 亮点论文:Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned(arXiv
2603.05344)- Terminal 原生编码 Agent 的第一篇系统性实践论文
- Eager-construction scaffolding(首次调用前预构建所有组件,消除首调用延迟和竞争条件)
- 复合多模型架构(执行/推理/批评/视觉任务使用不同模型实例)
- 5 层防御深度安全
- Schema-filtered planning subagents(通过工具 schema 而非运行时权限检查强制行为约束)
- 还收录:VoltAgent/awesome-ai-agent-papers(363+ 篇 2026 arXiv 论文,5 分类)、bradAGI/awesome-cli-coding-agents(80+ 终端原生编码 Agent)
- 工程价值: 高——汇集了 Agent harness 工程的核心理论和工具链,是工程师构建编码 Agent 的必读资源
- 可信度: 高——引用 arXiv 原始论文,按主题分类整理
- 后续行动: 精读 arXiv
2603.05344Terminal coding Agent 论文;纳入 Agent 工程实践参考;按需查阅 MCP 工具生态
五、GitHub AI 基础设施动态(2026 年中趋势)
🟢 趋势 1:Claude Code 生态带动 Agent Harness 基础设施爆发
- 来源: agents-radar
duanyytop/agents-radarIssue #1234(2026-05-23) - URL: https://github.com/duanyytop/agents-radar/issues/1234
- 核心数据:
claude-plugins-official(Anthropic 官方插件目录):+2,549 stars/daycodegraph(代码知识图谱工具):+3,684 stars/dayUnderstand-Anything(交互式代码知识图谱):+1,393 stars/daydotnet/skills(微软 .NET skills 库):MCP 集成确认chrome-devtools-mcp:Chrome DevTools MCP 工具- 洞察: 市场围绕 Claude Code 运行时快速收敛,社区竞相解决 token 消耗和工具调用开销的规模化瓶颈
- 可信度: 高——活跃追踪报告,数据来源为 GitHub stars 实时变化
🟢 趋势 2:Agent Skills 成为设计模式
- 来源: agents-radar Issue #985(2026-05-08)
- URL: https://github.com/duanyytop/agents-radar/issues/985
- 核心数据:
addyosmani/agent-skills(Google 工程师维护):+3,062 starsHmbown/DeepSeek-TUI:+5,799 starsVectifyAI/PageIndex:"vectorless, reasoning-based RAG",挑战 embedding 依赖范式decolua/9router:多 LLM 提供商路由(免费/付费),成本优化基础设施- 洞察: "Agent Skills"正在成为标准化可复用能力的设计模式;从简单 prompt 工程演进到生产级 Agent 工程
- 可信度: 高——持续追踪报告
🟢 趋势 3:GitHub 可靠性压力(AI 编码成为生产负载)
- 来源: WindowsForum / 行业观察(2026-05)
- URL: https://windowsforum.com/threads/github-reliability-strains-as-ai-coding-becomes-production-workload-may-2026.425739
- 核心观点:
- GitHub 作为 AI Agent 和人类开发者协调平台,面临容量压力
- Microsoft 规划将 GitHub 打造成 Agentic 软件开发平台,但基础设施承压
- 企业风险:GitHub + Azure DevOps + Entra ID + VS Code + Defender + Azure 部署链路集中度高
- 工程价值: 中——GitHub Copilot/Agent 规模化使用带来的基础设施风险;影响企业 AI 部署决策
- 可信度: 中——社区讨论,无官方数据;需交叉核验
- 后续行动: 关注 GitHub 官方可靠性公告;纳入基础设施风险评估参考
六、Substack 精选(工程实践洞察)
🟢 保留 7:ByteByteGo EP202 — MCP vs RAG vs AI Agents
- 专栏: ByteByteGo(Richard Socher & Bryan McCann)
- URL: https://substack.com/@bytebytego399569/note/p-187911204
- 发布时间: 2026-06
- 类型: 技术对比分析 / 行业洞察
- 核心观点:
- MCP(Model Context Protocol):解决 LLM 如何使用工具的问题
- RAG:解决模型在运行时知道什么的问题
- AI Agents = LLM + MCP + RAG + 循环执行
- GPT-5 不是单一模型,是多模型+安全+实时路由的统一系统
- GPT-5 内部:轻量分类器决定使用 GPT-5-main 还是 GPT-5-thinking;deep reasoning 路径用 reward model 采样选择
- "Reward engineering"正在成为新职业岗位
- 工程价值: 高——MCP/RAG/Agent 三者关系的清晰框架;GPT-5 系统卡片解读对理解大模型内部路由有参考价值
- 可信度: 高——ByteByteGo 为高影响力技术 newsletter,作者为知名 AI 研究者
- 后续行动: 对照 GPT-5 system card 原文核验;纳入 Agent 架构设计参考
🟢 保留 8:OWASP Top 10 Agents & AI Vulnerabilities 2026 Cheat Sheet
- 专栏: Alex Ewerlof(Open Substack)
- URL: https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents
- 发布时间: 2026
- 类型: 安全工程 / Agent 威胁建模
- 核心观点:
- OWASP Top 10 for LLMs(LLM01-LLM10)+ OWASP Top 10 for Agents(ASI01-ASI10)
- Agentic workload 在循环中执行,天然需要更少监督 = 财务灾难风险放大器
- LLM 指令(system prompt + function calls)和数据(用户输入 + RAG 文档)被拼接为单一字符串,是注入攻击面
- 缓解措施:Semantic Firewall(隔离的高度约束二次模型)+ 最小权限原则(工具访问控制)
- 工程价值: 高——Agent 安全是生产部署的必备知识;实用 cheat sheet 格式适合团队内部分发
- 可信度: 高——OWASP 项目,开放众包,可信度高
- 后续行动: 纳入 Agent 安全设计参考;建议团队对照 ASI01-ASI10 做安全评审
七、MLSys 与后端工程(2026 年中)
🟢 保留 9:How AI Improves Backend Development Efficiency in 2026
- 来源: SWMansion Blog
- URL: https://swmansion.com/blog/how-ai-improves-backend-development-efficiency-in-2026
- 发布时间: 2026
- 类型: 工程实践 / AI+后端
- 核心观点:
- 单一编码 Agent 能以惊人速度生成大量代码,但失控使用会显著增加成本
- 成熟代码库选择 AI 工具比新项目更难(基础设施复杂度超过 AI 上下文容量)
- AI 工具选型:框架层面关注智能可扩展后端开发支持能力
- 人类工程师核心职责向 Agentic workflow orchestration 转移
- 人类价值聚焦:业务对齐、团队领导、监督、质量强制执行
- 工程价值: 中高——对 AI+后端工程团队有方向性参考;"成本失控"是当前生产部署的核心痛点
- 可信度: 中——商业公司 blog,观点偏总结性;需交叉核验
- 后续行动: 对照其他来源核验 AI 工具成本数据;纳入 AI 工程团队管理参考
八、Hugging Face 生态(State of OS Spring 2026)
🟢 保留 10:State of Open Source on Hugging Face: Spring 2026
- 来源: Hugging Face Official Blog
- URL: https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026
- 发布时间: 2026-Q1(Spring 2026 报告)
- 类型: 生态报告 / 平台分析
- 核心观点:
- Legacy 公司(Airbnb 等)增加对开源生态的投入,企业级订阅增长
- 中国开源模型显式支持国产芯片(如华为昇腾)
- Kernel Hub(2025 年推出):支持 NVIDIA/AMD GPU 优化内核加载和运行
- 机器人和数据集在开发区域本地化效应明显(模型和数据最常在开发区域被使用)
- AI World 报道:机器人数据集在 Hugging Face 上领先
- 工程价值: 中高——对理解开源 AI 生态格局有参考价值;国产芯片支持信息对中国开发者有直接价值
- 可信度: 高——Hugging Face 官方博客,数据权威
- 后续行动: 关注 Kernel Hub 进展;纳入开源模型选型参考
💡 本轮综合洞察
- Agentic RAG 进入工程化阶段:TechRAG 的证据门控多 Agent 架构、LeMUQ 的不确定性量化,标志着 Agentic RAG 从研究走向生产系统设计。
- Harness 工程成为独立学科:awesome-harness-engineering 的出现和 Terminal coding Agent 首篇系统论文(arXiv 2603.05344)说明 Agent 基础设施正从框架层拆分为独立工程领域。
- Memory Governance 是下一个痛点:SSGM 揭示动态记忆的语义漂移和知识泄露风险,开源社区(Mem0 等)尚未系统性解决。
- Claude Code 生态是 2026 年中最大变量:围绕 Claude Code 的 MCP + 代码知识图谱工具爆发,与微软 GitHub Copilot 生态形成双寡头。
- Compound AI 系统工程化:综述论文 + 四张对比表(arXiv 2506.04565v2)为工程师提供了选择 RAG/Agent/MLLM/编排框架的结构化参考。
📋 建议写入路径
主要文件: /shared/research-kb/inbox/jay/2026-06-18-1335-agentic-rag-harness-ssgm-compound-ai-systems.md
是否需要精读(按优先级):
1. 精读:arXiv 2606.01613v2(TechRAG)— 生产级 Agentic RAG 架构蓝图
2. 精读:arXiv 2603.11768v1(SSGM)— Agent 记忆治理必读
3. 精读:arXiv 2506.04565v2(Compound AI Survey)— 四张对比表是快速参考
4. 精读:arXiv 2603.05344(Terminal Coding Agent)— Harness 工程奠基论文
5. 参考:OWASP Top 10 Agents 2026 — 安全设计checklist
主题页更新建议:
- 新增/更新 Agentic-RAG 主题页:纳入 TechRAG 架构图、LeMUQ 不确定性量化方法
- 更新 Agent-Memory 主题页:纳入 SSGM 框架
- 更新 Compound-AI-Systems 主题页:纳入综述论文四表对比摘要
本简报由 Jay 实例(Jay)生成 · 2026-06-18 13:35 UTC+8 · 请勿直接 push GitHub,合并由同步任务串行处理