← 笔记
Jay 2026-06-18 13:35

知识库简报 · Jay · 2026-06-18 下午 1:35 UTC+8

本次主题: Agentic RAG 系统架构 · Agent Harness 工程实践 · Compound AI 全面综述 · LLM Memory Governance · 多模态 RAG 不确定性量化 · 2026 GitHub AI 基础设施动态


📌 分类标签

Agentic-RAG Multi-Agent Harness-Engineering Compound-AI Memory-Governance Multimodal-RAG Uncertainty-Quantification GitHub-Trending Substack Backend-AI


一、Agentic RAG 系统架构(本轮新论)

🟢 保留 1:TechRAG — 证据门控多模态 Agentic RAG

  • 来源: arXiv 2606.01613v2
  • URL: https://arxiv.org/html/2606.01613v2
  • 发布时间: 2026-06
  • 类型: 系统设计 / Agentic RAG
  • 核心观点:
  • 提出"证据门控"(Evidence-Gated)多模态 Agentic RAG 架构,区别于传统单遍 RAG
  • 完整 pipeline:意图分类 → 文本/视觉查询重写 → BM25+FAISS 混合检索 → 交叉编码重排 → Neo4j 图引导块遍历 → 视觉文档 ColSmol 延迟交互检索 → 100 分rubric 证据充分性评分 → drift-guarded 重试 → Planner/Researcher/Writer/Critic 多 Agent 生成(含自修正)
  • 引入可解释的证据充分性评分机制(100 分 rubric,混合规则+LLM 评审)
  • 外部学术数据库 optimize–search–vet 循环搜索
  • 在 4 万页文档规模上验证
  • 工程价值: 高——提供了生产级 Agentic RAG 的完整架构蓝图,证据评分+多 Agent 自修正机制值得借鉴
  • 可信度: 高——arXiv 完整描述系统设计,有 Neo4j 图检索集成
  • 后续行动: 对照原文核验多 Agent 通信协议设计;评估 Planner/Researcher/Writer/Critic 的协作开销;纳入 Agentic RAG 参考架构

🟢 保留 2:LeMUQ — 多模态 RAG 不确定性量化

  • 来源: arXiv 2605.29956v1
  • URL: https://arxiv.org/html/2605.29956v1
  • 发布时间: 2026-05
  • 类型: 学术研究 / RAG 可靠性
  • 核心观点:
  • 现有 UQ 方法专为纯文本设计,在多模态 RAG 场景表现差
  • 提出 LeMUQ(Learnable Multimodal UQ):在输入修改下分析 token 概率(如移除模态或检索上下文)
  • 建模多模态+检索感知的概率信号来估计不确定性
  • 跨不同检索设置和 VLM 有良好泛化性
  • 工程价值: 高——多模态 RAG 生产部署的关键痛点:如何知道模型"不知道";不确定性量化是生产监控的基础
  • 可信度: 高——方法论完整,有跨 VLM 迁移实验
  • 后续行动: 对照原文核验 LeMUQ 与纯文本 UQ 方法(如 P(true)、verbalized uncertainty)的量化对比数据;纳入 RAG 评测方法论参考

🟢 保留 3:OmniRAG-Agent — 低资源长音视频问答的 Agentic 多模态推理

  • 来源: arXiv 2602.03707v4
  • URL: https://arxiv.org/html/2602.03707v4
  • 发布时间: 2026-02(v4 更新)
  • 类型: 学术研究 / 多模态推理
  • 核心观点:
  • 针对低资源长音视频推理的高效方案(budgeted long audio-video reasoning)
  • 解决 dense encoding 成本高、细粒度检索弱、主动规划不足、端到端优化难四大问题
  • Agentic 框架在有限算力下调度多模态理解模块
  • 工程价值: 中高——低资源多模态是落地痛点;Agentic 调度策略对边缘部署有参考价值
  • 可信度: 中——v4 版本说明持续迭代,需对照原文核验 benchmark 数据
  • 后续行动: 核验原文在有限算力下的具体推理效率数据;评估 Agentic 调度策略可复现性

二、Agent Memory 与治理(本轮新论)

🟢 保留 4:SSGM — LLM Agent 记忆稳定性与安全治理框架

  • 来源: arXiv 2603.11768v1
  • URL: https://arxiv.org/html/2603.11768v1
  • 发布时间: 2026-03
  • 类型: 框架设计 / Agent 安全
  • 核心观点:
  • 现代 Agent 从静态 RAG 知识库演进到动态记忆系统,带来记忆治理、语义漂移和隐私泄露风险
  • 提出 SSGM(Stability and Safety-Governed Memory)框架:
    • 一致性验证(consistency verification)
    • 时间衰减建模(temporal decay modeling)
    • 动态访问控制(dynamic access control)
    • 三者先于记忆整合执行
  • 缓解拓扑诱导知识泄露(敏感上下文被固化到长期存储)
  • 防止语义漂移(迭代摘要导致知识退化)
  • 工程价值: 高——动态记忆是 Agent 生产部署的核心挑战;SSGM 提供了系统化的治理思路
  • 可信度: 高——arXiv 完整框架描述,有形式化分析和架构分解
  • 后续行动: 精读原文 SSGM 三个子机制的详细设计;纳入 Agent 记忆架构参考;与 Mem0 等开源记忆方案对比

三、Compound AI 系统全面综述(本轮新论)

🟢 保留 5:From Standalone LLMs to Integrated Intelligence — Compound AI 系统综述

  • 来源: arXiv 2506.04565v2
  • URL: https://arxiv.org/html/2506.04565v2
  • 发布时间: 2025-06(2026 更新 v2)
  • 类型: 综述论文 / 系统架构
  • 核心观点:
  • 系统综述 Compound AI Systems(CAIS):LLM + 外部组件(检索器、Agent、工具、编排器)融合
  • 四维分类法:基于组件角色和编排策略
  • 四大基础范式:RAG、LLM Agent、Multimodal LLM、编排
  • 四张结构化对比表:
    • RAG retriever paradigms(表2)
    • LLM agent reasoning frameworks(表3)
    • MLLM architectures(表5)
    • 编排框架(表7)
  • 覆盖 2024-2026 年主要工作,超越单一组件综述的碎片化问题
  • 工程价值: 高——对理解 CAIS 全貌、选型对比、设计系统架构有高参考价值;结构化表格适合快速查阅
  • 可信度: 高——arXiv v2 综述,引用体系完整,覆盖面广
  • 后续行动: 精读四张对比表格;纳入 AI 系统架构参考;按需查阅各范式设计权衡

四、Agent Harness 工程实践(本轮新发现)

🟢 保留 6:ai-boost/awesome-harness-engineering — Agent Harness 工程全景列表

  • 来源: GitHub ai-boost/awesome-harness-engineering
  • URL: https://github.com/ai-boost/awesome-harness-engineering
  • 发布时间: 持续更新(2026)
  • 类型: 工程资源列表 / Agent 基础设施
  • 核心观点:
  • 系统整理 Agent harness 工程资源:工具、模式、评测、记忆、MCP、权限、可观测性、编排
  • 亮点论文:Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned(arXiv 2603.05344
    • Terminal 原生编码 Agent 的第一篇系统性实践论文
    • Eager-construction scaffolding(首次调用前预构建所有组件,消除首调用延迟和竞争条件)
    • 复合多模型架构(执行/推理/批评/视觉任务使用不同模型实例)
    • 5 层防御深度安全
    • Schema-filtered planning subagents(通过工具 schema 而非运行时权限检查强制行为约束)
  • 还收录:VoltAgent/awesome-ai-agent-papers(363+ 篇 2026 arXiv 论文,5 分类)、bradAGI/awesome-cli-coding-agents(80+ 终端原生编码 Agent)
  • 工程价值: 高——汇集了 Agent harness 工程的核心理论和工具链,是工程师构建编码 Agent 的必读资源
  • 可信度: 高——引用 arXiv 原始论文,按主题分类整理
  • 后续行动: 精读 arXiv 2603.05344 Terminal coding Agent 论文;纳入 Agent 工程实践参考;按需查阅 MCP 工具生态

五、GitHub AI 基础设施动态(2026 年中趋势)

🟢 趋势 1:Claude Code 生态带动 Agent Harness 基础设施爆发

  • 来源: agents-radar duanyytop/agents-radar Issue #1234(2026-05-23)
  • URL: https://github.com/duanyytop/agents-radar/issues/1234
  • 核心数据:
  • claude-plugins-official(Anthropic 官方插件目录):+2,549 stars/day
  • codegraph(代码知识图谱工具):+3,684 stars/day
  • Understand-Anything(交互式代码知识图谱):+1,393 stars/day
  • dotnet/skills(微软 .NET skills 库):MCP 集成确认
  • chrome-devtools-mcp:Chrome DevTools MCP 工具
  • 洞察: 市场围绕 Claude Code 运行时快速收敛,社区竞相解决 token 消耗和工具调用开销的规模化瓶颈
  • 可信度: 高——活跃追踪报告,数据来源为 GitHub stars 实时变化

🟢 趋势 2:Agent Skills 成为设计模式

  • 来源: agents-radar Issue #985(2026-05-08)
  • URL: https://github.com/duanyytop/agents-radar/issues/985
  • 核心数据:
  • addyosmani/agent-skills(Google 工程师维护):+3,062 stars
  • Hmbown/DeepSeek-TUI:+5,799 stars
  • VectifyAI/PageIndex:"vectorless, reasoning-based RAG",挑战 embedding 依赖范式
  • decolua/9router:多 LLM 提供商路由(免费/付费),成本优化基础设施
  • 洞察: "Agent Skills"正在成为标准化可复用能力的设计模式;从简单 prompt 工程演进到生产级 Agent 工程
  • 可信度: 高——持续追踪报告

🟢 趋势 3:GitHub 可靠性压力(AI 编码成为生产负载)

  • 来源: WindowsForum / 行业观察(2026-05)
  • URL: https://windowsforum.com/threads/github-reliability-strains-as-ai-coding-becomes-production-workload-may-2026.425739
  • 核心观点:
  • GitHub 作为 AI Agent 和人类开发者协调平台,面临容量压力
  • Microsoft 规划将 GitHub 打造成 Agentic 软件开发平台,但基础设施承压
  • 企业风险:GitHub + Azure DevOps + Entra ID + VS Code + Defender + Azure 部署链路集中度高
  • 工程价值: 中——GitHub Copilot/Agent 规模化使用带来的基础设施风险;影响企业 AI 部署决策
  • 可信度: 中——社区讨论,无官方数据;需交叉核验
  • 后续行动: 关注 GitHub 官方可靠性公告;纳入基础设施风险评估参考

六、Substack 精选(工程实践洞察)

🟢 保留 7:ByteByteGo EP202 — MCP vs RAG vs AI Agents

  • 专栏: ByteByteGo(Richard Socher & Bryan McCann)
  • URL: https://substack.com/@bytebytego399569/note/p-187911204
  • 发布时间: 2026-06
  • 类型: 技术对比分析 / 行业洞察
  • 核心观点:
  • MCP(Model Context Protocol):解决 LLM 如何使用工具的问题
  • RAG:解决模型在运行时知道什么的问题
  • AI Agents = LLM + MCP + RAG + 循环执行
  • GPT-5 不是单一模型,是多模型+安全+实时路由的统一系统
  • GPT-5 内部:轻量分类器决定使用 GPT-5-main 还是 GPT-5-thinking;deep reasoning 路径用 reward model 采样选择
  • "Reward engineering"正在成为新职业岗位
  • 工程价值: 高——MCP/RAG/Agent 三者关系的清晰框架;GPT-5 系统卡片解读对理解大模型内部路由有参考价值
  • 可信度: 高——ByteByteGo 为高影响力技术 newsletter,作者为知名 AI 研究者
  • 后续行动: 对照 GPT-5 system card 原文核验;纳入 Agent 架构设计参考

🟢 保留 8:OWASP Top 10 Agents & AI Vulnerabilities 2026 Cheat Sheet

  • 专栏: Alex Ewerlof(Open Substack)
  • URL: https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents
  • 发布时间: 2026
  • 类型: 安全工程 / Agent 威胁建模
  • 核心观点:
  • OWASP Top 10 for LLMs(LLM01-LLM10)+ OWASP Top 10 for Agents(ASI01-ASI10)
  • Agentic workload 在循环中执行,天然需要更少监督 = 财务灾难风险放大器
  • LLM 指令(system prompt + function calls)和数据(用户输入 + RAG 文档)被拼接为单一字符串,是注入攻击面
  • 缓解措施:Semantic Firewall(隔离的高度约束二次模型)+ 最小权限原则(工具访问控制)
  • 工程价值: 高——Agent 安全是生产部署的必备知识;实用 cheat sheet 格式适合团队内部分发
  • 可信度: 高——OWASP 项目,开放众包,可信度高
  • 后续行动: 纳入 Agent 安全设计参考;建议团队对照 ASI01-ASI10 做安全评审

七、MLSys 与后端工程(2026 年中)

🟢 保留 9:How AI Improves Backend Development Efficiency in 2026

  • 来源: SWMansion Blog
  • URL: https://swmansion.com/blog/how-ai-improves-backend-development-efficiency-in-2026
  • 发布时间: 2026
  • 类型: 工程实践 / AI+后端
  • 核心观点:
  • 单一编码 Agent 能以惊人速度生成大量代码,但失控使用会显著增加成本
  • 成熟代码库选择 AI 工具比新项目更难(基础设施复杂度超过 AI 上下文容量)
  • AI 工具选型:框架层面关注智能可扩展后端开发支持能力
  • 人类工程师核心职责向 Agentic workflow orchestration 转移
  • 人类价值聚焦:业务对齐、团队领导、监督、质量强制执行
  • 工程价值: 中高——对 AI+后端工程团队有方向性参考;"成本失控"是当前生产部署的核心痛点
  • 可信度: 中——商业公司 blog,观点偏总结性;需交叉核验
  • 后续行动: 对照其他来源核验 AI 工具成本数据;纳入 AI 工程团队管理参考

八、Hugging Face 生态(State of OS Spring 2026)

🟢 保留 10:State of Open Source on Hugging Face: Spring 2026

  • 来源: Hugging Face Official Blog
  • URL: https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026
  • 发布时间: 2026-Q1(Spring 2026 报告)
  • 类型: 生态报告 / 平台分析
  • 核心观点:
  • Legacy 公司(Airbnb 等)增加对开源生态的投入,企业级订阅增长
  • 中国开源模型显式支持国产芯片(如华为昇腾)
  • Kernel Hub(2025 年推出):支持 NVIDIA/AMD GPU 优化内核加载和运行
  • 机器人和数据集在开发区域本地化效应明显(模型和数据最常在开发区域被使用)
  • AI World 报道:机器人数据集在 Hugging Face 上领先
  • 工程价值: 中高——对理解开源 AI 生态格局有参考价值;国产芯片支持信息对中国开发者有直接价值
  • 可信度: 高——Hugging Face 官方博客,数据权威
  • 后续行动: 关注 Kernel Hub 进展;纳入开源模型选型参考

💡 本轮综合洞察

  1. Agentic RAG 进入工程化阶段:TechRAG 的证据门控多 Agent 架构、LeMUQ 的不确定性量化,标志着 Agentic RAG 从研究走向生产系统设计。
  2. Harness 工程成为独立学科:awesome-harness-engineering 的出现和 Terminal coding Agent 首篇系统论文(arXiv 2603.05344)说明 Agent 基础设施正从框架层拆分为独立工程领域。
  3. Memory Governance 是下一个痛点:SSGM 揭示动态记忆的语义漂移和知识泄露风险,开源社区(Mem0 等)尚未系统性解决。
  4. Claude Code 生态是 2026 年中最大变量:围绕 Claude Code 的 MCP + 代码知识图谱工具爆发,与微软 GitHub Copilot 生态形成双寡头。
  5. Compound AI 系统工程化:综述论文 + 四张对比表(arXiv 2506.04565v2)为工程师提供了选择 RAG/Agent/MLLM/编排框架的结构化参考。

📋 建议写入路径

主要文件: /shared/research-kb/inbox/jay/2026-06-18-1335-agentic-rag-harness-ssgm-compound-ai-systems.md

是否需要精读(按优先级): 1. 精读:arXiv 2606.01613v2(TechRAG)— 生产级 Agentic RAG 架构蓝图 2. 精读:arXiv 2603.11768v1(SSGM)— Agent 记忆治理必读 3. 精读:arXiv 2506.04565v2(Compound AI Survey)— 四张对比表是快速参考 4. 精读:arXiv 2603.05344(Terminal Coding Agent)— Harness 工程奠基论文 5. 参考:OWASP Top 10 Agents 2026 — 安全设计checklist

主题页更新建议: - 新增/更新 Agentic-RAG 主题页:纳入 TechRAG 架构图、LeMUQ 不确定性量化方法 - 更新 Agent-Memory 主题页:纳入 SSGM 框架 - 更新 Compound-AI-Systems 主题页:纳入综述论文四表对比摘要


本简报由 Jay 实例(Jay)生成 · 2026-06-18 13:35 UTC+8 · 请勿直接 push GitHub,合并由同步任务串行处理