知识库简报 · Jay · 2026-06-18 下午 1:35 UTC+8

本次主题： Agentic RAG 系统架构 · Agent Harness 工程实践 · Compound AI 全面综述 · LLM Memory Governance · 多模态 RAG 不确定性量化 · 2026 GitHub AI 基础设施动态

📌 分类标签

Agentic-RAG Multi-Agent Harness-Engineering Compound-AI Memory-Governance Multimodal-RAG Uncertainty-Quantification GitHub-Trending Substack Backend-AI

一、Agentic RAG 系统架构（本轮新论）

🟢 保留 1：TechRAG — 证据门控多模态 Agentic RAG

来源： arXiv 2606.01613v2
URL： https://arxiv.org/html/2606.01613v2
发布时间： 2026-06
类型： 系统设计 / Agentic RAG
核心观点：
提出"证据门控"（Evidence-Gated）多模态 Agentic RAG 架构，区别于传统单遍 RAG
完整 pipeline：意图分类 → 文本/视觉查询重写 → BM25+FAISS 混合检索 → 交叉编码重排 → Neo4j 图引导块遍历 → 视觉文档 ColSmol 延迟交互检索 → 100 分rubric 证据充分性评分 → drift-guarded 重试 → Planner/Researcher/Writer/Critic 多 Agent 生成（含自修正）
引入可解释的证据充分性评分机制（100 分 rubric，混合规则+LLM 评审）
外部学术数据库 optimize–search–vet 循环搜索
在 4 万页文档规模上验证
工程价值： 高——提供了生产级 Agentic RAG 的完整架构蓝图，证据评分+多 Agent 自修正机制值得借鉴
可信度： 高——arXiv 完整描述系统设计，有 Neo4j 图检索集成
后续行动： 对照原文核验多 Agent 通信协议设计；评估 Planner/Researcher/Writer/Critic 的协作开销；纳入 Agentic RAG 参考架构

🟢 保留 2：LeMUQ — 多模态 RAG 不确定性量化

来源： arXiv 2605.29956v1
URL： https://arxiv.org/html/2605.29956v1
发布时间： 2026-05
类型： 学术研究 / RAG 可靠性
核心观点：
现有 UQ 方法专为纯文本设计，在多模态 RAG 场景表现差
提出 LeMUQ（Learnable Multimodal UQ）：在输入修改下分析 token 概率（如移除模态或检索上下文）
建模多模态+检索感知的概率信号来估计不确定性
跨不同检索设置和 VLM 有良好泛化性
工程价值： 高——多模态 RAG 生产部署的关键痛点：如何知道模型"不知道"；不确定性量化是生产监控的基础
可信度： 高——方法论完整，有跨 VLM 迁移实验
后续行动： 对照原文核验 LeMUQ 与纯文本 UQ 方法（如 P(true)、verbalized uncertainty）的量化对比数据；纳入 RAG 评测方法论参考

🟢 保留 3：OmniRAG-Agent — 低资源长音视频问答的 Agentic 多模态推理

来源： arXiv 2602.03707v4
URL： https://arxiv.org/html/2602.03707v4
发布时间： 2026-02（v4 更新）
类型： 学术研究 / 多模态推理
核心观点：
针对低资源长音视频推理的高效方案（budgeted long audio-video reasoning）
解决 dense encoding 成本高、细粒度检索弱、主动规划不足、端到端优化难四大问题
Agentic 框架在有限算力下调度多模态理解模块
工程价值： 中高——低资源多模态是落地痛点；Agentic 调度策略对边缘部署有参考价值
可信度： 中——v4 版本说明持续迭代，需对照原文核验 benchmark 数据
后续行动： 核验原文在有限算力下的具体推理效率数据；评估 Agentic 调度策略可复现性

二、Agent Memory 与治理（本轮新论）

🟢 保留 4：SSGM — LLM Agent 记忆稳定性与安全治理框架

来源： arXiv 2603.11768v1
URL： https://arxiv.org/html/2603.11768v1
发布时间： 2026-03
类型： 框架设计 / Agent 安全
核心观点：
现代 Agent 从静态 RAG 知识库演进到动态记忆系统，带来记忆治理、语义漂移和隐私泄露风险
提出 SSGM（Stability and Safety-Governed Memory）框架：
- 一致性验证（consistency verification）
- 时间衰减建模（temporal decay modeling）
- 动态访问控制（dynamic access control）
- 三者先于记忆整合执行
缓解拓扑诱导知识泄露（敏感上下文被固化到长期存储）
防止语义漂移（迭代摘要导致知识退化）
工程价值： 高——动态记忆是 Agent 生产部署的核心挑战；SSGM 提供了系统化的治理思路
可信度： 高——arXiv 完整框架描述，有形式化分析和架构分解
后续行动： 精读原文 SSGM 三个子机制的详细设计；纳入 Agent 记忆架构参考；与 Mem0 等开源记忆方案对比

三、Compound AI 系统全面综述（本轮新论）

🟢 保留 5：From Standalone LLMs to Integrated Intelligence — Compound AI 系统综述

来源： arXiv 2506.04565v2
URL： https://arxiv.org/html/2506.04565v2
发布时间： 2025-06（2026 更新 v2）
类型： 综述论文 / 系统架构
核心观点：
系统综述 Compound AI Systems（CAIS）：LLM + 外部组件（检索器、Agent、工具、编排器）融合
四维分类法：基于组件角色和编排策略
四大基础范式：RAG、LLM Agent、Multimodal LLM、编排
四张结构化对比表：
- RAG retriever paradigms（表2）
- LLM agent reasoning frameworks（表3）
- MLLM architectures（表5）
- 编排框架（表7）
覆盖 2024-2026 年主要工作，超越单一组件综述的碎片化问题
工程价值： 高——对理解 CAIS 全貌、选型对比、设计系统架构有高参考价值；结构化表格适合快速查阅
可信度： 高——arXiv v2 综述，引用体系完整，覆盖面广
后续行动： 精读四张对比表格；纳入 AI 系统架构参考；按需查阅各范式设计权衡

四、Agent Harness 工程实践（本轮新发现）

🟢 保留 6：ai-boost/awesome-harness-engineering — Agent Harness 工程全景列表

来源： GitHub ai-boost/awesome-harness-engineering
URL： https://github.com/ai-boost/awesome-harness-engineering
发布时间： 持续更新（2026）
类型： 工程资源列表 / Agent 基础设施
核心观点：
系统整理 Agent harness 工程资源：工具、模式、评测、记忆、MCP、权限、可观测性、编排
亮点论文：Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned（arXiv 2603.05344）
- Terminal 原生编码 Agent 的第一篇系统性实践论文
- Eager-construction scaffolding（首次调用前预构建所有组件，消除首调用延迟和竞争条件）
- 复合多模型架构（执行/推理/批评/视觉任务使用不同模型实例）
- 5 层防御深度安全
- Schema-filtered planning subagents（通过工具 schema 而非运行时权限检查强制行为约束）
还收录：VoltAgent/awesome-ai-agent-papers（363+ 篇 2026 arXiv 论文，5 分类）、bradAGI/awesome-cli-coding-agents（80+ 终端原生编码 Agent）
工程价值： 高——汇集了 Agent harness 工程的核心理论和工具链，是工程师构建编码 Agent 的必读资源
可信度： 高——引用 arXiv 原始论文，按主题分类整理
后续行动： 精读 arXiv 2603.05344 Terminal coding Agent 论文；纳入 Agent 工程实践参考；按需查阅 MCP 工具生态

五、GitHub AI 基础设施动态（2026 年中趋势）

🟢 趋势 1：Claude Code 生态带动 Agent Harness 基础设施爆发

来源： agents-radar duanyytop/agents-radar Issue #1234（2026-05-23）
URL： https://github.com/duanyytop/agents-radar/issues/1234
核心数据：
claude-plugins-official（Anthropic 官方插件目录）：+2,549 stars/day
codegraph（代码知识图谱工具）：+3,684 stars/day
Understand-Anything（交互式代码知识图谱）：+1,393 stars/day
dotnet/skills（微软 .NET skills 库）：MCP 集成确认
chrome-devtools-mcp：Chrome DevTools MCP 工具
洞察： 市场围绕 Claude Code 运行时快速收敛，社区竞相解决 token 消耗和工具调用开销的规模化瓶颈
可信度： 高——活跃追踪报告，数据来源为 GitHub stars 实时变化

🟢 趋势 2：Agent Skills 成为设计模式

来源： agents-radar Issue #985（2026-05-08）
URL： https://github.com/duanyytop/agents-radar/issues/985
核心数据：
addyosmani/agent-skills（Google 工程师维护）：+3,062 stars
Hmbown/DeepSeek-TUI：+5,799 stars
VectifyAI/PageIndex："vectorless, reasoning-based RAG"，挑战 embedding 依赖范式
decolua/9router：多 LLM 提供商路由（免费/付费），成本优化基础设施
洞察： "Agent Skills"正在成为标准化可复用能力的设计模式；从简单 prompt 工程演进到生产级 Agent 工程
可信度： 高——持续追踪报告

🟢 趋势 3：GitHub 可靠性压力（AI 编码成为生产负载）

来源： WindowsForum / 行业观察（2026-05）
URL： https://windowsforum.com/threads/github-reliability-strains-as-ai-coding-becomes-production-workload-may-2026.425739
核心观点：
GitHub 作为 AI Agent 和人类开发者协调平台，面临容量压力
Microsoft 规划将 GitHub 打造成 Agentic 软件开发平台，但基础设施承压
企业风险：GitHub + Azure DevOps + Entra ID + VS Code + Defender + Azure 部署链路集中度高
工程价值： 中——GitHub Copilot/Agent 规模化使用带来的基础设施风险；影响企业 AI 部署决策
可信度： 中——社区讨论，无官方数据；需交叉核验
后续行动： 关注 GitHub 官方可靠性公告；纳入基础设施风险评估参考

六、Substack 精选（工程实践洞察）

🟢 保留 7：ByteByteGo EP202 — MCP vs RAG vs AI Agents

专栏： ByteByteGo（Richard Socher & Bryan McCann）
URL： https://substack.com/@bytebytego399569/note/p-187911204
发布时间： 2026-06
类型： 技术对比分析 / 行业洞察
核心观点：
MCP（Model Context Protocol）：解决 LLM 如何使用工具的问题
RAG：解决模型在运行时知道什么的问题
AI Agents = LLM + MCP + RAG + 循环执行
GPT-5 不是单一模型，是多模型+安全+实时路由的统一系统
GPT-5 内部：轻量分类器决定使用 GPT-5-main 还是 GPT-5-thinking；deep reasoning 路径用 reward model 采样选择
"Reward engineering"正在成为新职业岗位
工程价值： 高——MCP/RAG/Agent 三者关系的清晰框架；GPT-5 系统卡片解读对理解大模型内部路由有参考价值
可信度： 高——ByteByteGo 为高影响力技术 newsletter，作者为知名 AI 研究者
后续行动： 对照 GPT-5 system card 原文核验；纳入 Agent 架构设计参考

🟢 保留 8：OWASP Top 10 Agents & AI Vulnerabilities 2026 Cheat Sheet

专栏： Alex Ewerlof（Open Substack）
URL： https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents
发布时间： 2026
类型： 安全工程 / Agent 威胁建模
核心观点：
OWASP Top 10 for LLMs（LLM01-LLM10）+ OWASP Top 10 for Agents（ASI01-ASI10）
Agentic workload 在循环中执行，天然需要更少监督 = 财务灾难风险放大器
LLM 指令（system prompt + function calls）和数据（用户输入 + RAG 文档）被拼接为单一字符串，是注入攻击面
缓解措施：Semantic Firewall（隔离的高度约束二次模型）+ 最小权限原则（工具访问控制）
工程价值： 高——Agent 安全是生产部署的必备知识；实用 cheat sheet 格式适合团队内部分发
可信度： 高——OWASP 项目，开放众包，可信度高
后续行动： 纳入 Agent 安全设计参考；建议团队对照 ASI01-ASI10 做安全评审

七、MLSys 与后端工程（2026 年中）

🟢 保留 9：How AI Improves Backend Development Efficiency in 2026

来源： SWMansion Blog
URL： https://swmansion.com/blog/how-ai-improves-backend-development-efficiency-in-2026
发布时间： 2026
类型： 工程实践 / AI+后端
核心观点：
单一编码 Agent 能以惊人速度生成大量代码，但失控使用会显著增加成本
成熟代码库选择 AI 工具比新项目更难（基础设施复杂度超过 AI 上下文容量）
AI 工具选型：框架层面关注智能可扩展后端开发支持能力
人类工程师核心职责向 Agentic workflow orchestration 转移
人类价值聚焦：业务对齐、团队领导、监督、质量强制执行
工程价值： 中高——对 AI+后端工程团队有方向性参考；"成本失控"是当前生产部署的核心痛点
可信度： 中——商业公司 blog，观点偏总结性；需交叉核验
后续行动： 对照其他来源核验 AI 工具成本数据；纳入 AI 工程团队管理参考

八、Hugging Face 生态（State of OS Spring 2026）

🟢 保留 10：State of Open Source on Hugging Face: Spring 2026

来源： Hugging Face Official Blog
URL： https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026
发布时间： 2026-Q1（Spring 2026 报告）
类型： 生态报告 / 平台分析
核心观点：
Legacy 公司（Airbnb 等）增加对开源生态的投入，企业级订阅增长
中国开源模型显式支持国产芯片（如华为昇腾）
Kernel Hub（2025 年推出）：支持 NVIDIA/AMD GPU 优化内核加载和运行
机器人和数据集在开发区域本地化效应明显（模型和数据最常在开发区域被使用）
AI World 报道：机器人数据集在 Hugging Face 上领先
工程价值： 中高——对理解开源 AI 生态格局有参考价值；国产芯片支持信息对中国开发者有直接价值
可信度： 高——Hugging Face 官方博客，数据权威
后续行动： 关注 Kernel Hub 进展；纳入开源模型选型参考

💡 本轮综合洞察

Agentic RAG 进入工程化阶段：TechRAG 的证据门控多 Agent 架构、LeMUQ 的不确定性量化，标志着 Agentic RAG 从研究走向生产系统设计。
Harness 工程成为独立学科：awesome-harness-engineering 的出现和 Terminal coding Agent 首篇系统论文（arXiv 2603.05344）说明 Agent 基础设施正从框架层拆分为独立工程领域。
Memory Governance 是下一个痛点：SSGM 揭示动态记忆的语义漂移和知识泄露风险，开源社区（Mem0 等）尚未系统性解决。
Claude Code 生态是 2026 年中最大变量：围绕 Claude Code 的 MCP + 代码知识图谱工具爆发，与微软 GitHub Copilot 生态形成双寡头。
Compound AI 系统工程化：综述论文 + 四张对比表（arXiv 2506.04565v2）为工程师提供了选择 RAG/Agent/MLLM/编排框架的结构化参考。

📋 建议写入路径

主要文件： /shared/research-kb/inbox/jay/2026-06-18-1335-agentic-rag-harness-ssgm-compound-ai-systems.md

是否需要精读（按优先级）： 1. 精读：arXiv 2606.01613v2（TechRAG）— 生产级 Agentic RAG 架构蓝图 2. 精读：arXiv 2603.11768v1（SSGM）— Agent 记忆治理必读 3. 精读：arXiv 2506.04565v2（Compound AI Survey）— 四张对比表是快速参考 4. 精读：arXiv 2603.05344（Terminal Coding Agent）— Harness 工程奠基论文 5. 参考：OWASP Top 10 Agents 2026 — 安全设计checklist

主题页更新建议： - 新增/更新 Agentic-RAG 主题页：纳入 TechRAG 架构图、LeMUQ 不确定性量化方法 - 更新 Agent-Memory 主题页：纳入 SSGM 框架 - 更新 Compound-AI-Systems 主题页：纳入综述论文四表对比摘要

本简报由 Jay 实例（Jay）生成 · 2026-06-18 13:35 UTC+8 · 请勿直接 push GitHub，合并由同步任务串行处理