研究知识库草稿 · Jay · 2026-06-14 下午批次（第4次）

本次主题

Agentic RAG 新范式 / 多模态 Agentic Retrieval / AI Agent Stack 2026 六层架构 / Agent 框架版本对比 / OWASP Agent 安全清单

一、arXiv 高价值条目

条目A1：BRTR — Beyond Rows to Reasoning：多模态电子表格 Agentic Retrieval 框架

来源：arXiv:2603.06503v1，2026年3月
类型：学术论文（多模态 RAG / Agentic Retrieval）
作者：研究团队（单位待考）
可信度：⭐⭐⭐⭐⭐（arXiv 正式论文，有 benchmark 数据支撑）
工程价值：⭐⭐⭐⭐⭐

核心贡献： - 提出 BRTR 框架（Beyond Rows to Reasoning），用迭代式工具调用循环替代单次检索，解决企业电子表格（百万单元格、跨Sheet依赖、嵌入图表）场景下的多步推理问题 - 三大组成模块： 1. 多模态电子表格索引（multimodal spreadsheet indexing） 2. Agentic 任务规划与分解（task planning and decomposition） 3. 多格式响应生成（multi-format response generation）+ 完整端到端工具调用审计

Benchmark 数据（超200小时人工评估）： - FRTR-Bench：+25pp 超越 Prior 方法 - SpreadsheetLLM：+7pp - FINCH：+32pp

多模态 Embedding 模型评测： - 评测了5种多模态 embedding，NVIDIA NeMo Retriever 1B 在混合表格+视觉数据上表现最优 - GPT-5.2 在效率-准确率权衡上最优

关键工程洞察： - 单次检索在复杂工作簿上退化的根本原因：证据不足时无法重新查询 - BRTR 通过迭代式 re-query（证据不足时自动继续查询）维持接近完美的准确率 - Naive full-context 方法在超过 50K 单元格时超出 LLM context window，BRTR 通过 context budgeting 机制控制 token 增长

后续行动：
建议精读第4节（Embedding 评测细节）和第5节（Ablation 实验）
关注 BRTR 的context budgeting 机制源码实现
对企业数据分析 / 财务 AI 场景有直接参考价值
标签：multimodal-RAG agentic-retrieval spreadsheet-AI benchmark tool-calling
建议分类：学术研究 / Multimodal RAG

条目A2：Text World Models for LLM-based Agents

来源：arXiv:2606.09032v1，2026年6月
类型：学术论文（Agent 认知架构）
可信度：⭐⭐⭐⭐⭐（arXiv 2026年6月最新）
工程价值：⭐⭐⭐⭐

核心论点： - 当前 LLM Agent 多为反应式（reactive）：每步将当前观测映射到下一步动作，缺乏对环境的显式可检查世界模型 - Text World Model（WM）：捕获环境结构及其在 Agent 动作下的演化，支持规划、高效学习和超越单步决策的评估 - 给定状态和候选动作，Text WM 预测结果文本状态（网页观测、终端输出、API响应、用户回复）

三种构建方式： 1. Prompt-based simulation（如 Hao et al., 2023; Gu et al., 2025） 2. Learned neural transition models（如 Chae et al., 2025; Xiao et al., 2026） 3. Programmatic/hybrid constructions

后续行动：关注 Text WM 与 ReAct/Plan-and-Execute 范式的对比评估数据
标签：world-model agent-architecture planning reasoning
建议分类：学术研究 / Agent 认知架构

条目A3：From Standalone LLMs to Integrated Intelligence — Compound AI Systems 综述

来源：arXiv:2506.04565v2，2025年6月，2026年仍有高引用
类型：综述论文（Compound AI Systems）
可信度：⭐⭐⭐⭐⭐
工程价值：⭐⭐⭐⭐

核心贡献： - 提出 Compound AI Systems（CAIS）多维分类法，基于组件角色和编排策略 - 四大基础范式： 1. RAG（Retrieval-Augmented Generation） 2. LLM Agents 3. Multimodal LLMs（MLLMs） 4. Orchestration - 提供结构化对比表： - RAG retriever paradigms（表2） - LLM agent reasoning frameworks（表3） - MLLM architectures（表5） - Orchestration frameworks（表7）

关键洞察：各组件调研此前是碎片化的，本综述首次系统性整合 - 标签：compound-AI CAIS survey RAG agent multimodal orchestration - 建议分类：学术综述 / AI系统架构

二、Substack 高价值条目

条目S1：The AI Agents Stack（2026版）— The AI Engineer

来源：theaiengineer.substack.com，2026年3月
专栏：The AI Engineer（Paolo Perrone）
发布时间：2026年3月
可信度：⭐⭐⭐⭐⭐（高质量 AI 工程化作者，深度产业调研）
工程价值：⭐⭐⭐⭐⭐

核心内容：六层架构（2024 → 2026 演进）

Layer	名称	2024状态	2026状态
1	Model	核心层	基本不变
2	Tooling / MCP	新增（MCP协议标准化）	重大变化
3	Memory	"pick a vector DB and do RAG"	三层架构 + Memory Blocks
4	Reasoning（单步→多步）	单步或简单链	推理模型改变了一切
5	Evaluation	新兴	栈中最不成熟层
6	Compliance（监管合规）	几乎不存在	必备层

三大驱动因素（2024→2026地图重绘）： 1. MCP 标准化了工具连接（MCP 是 2026 新出现的独立层） 2. 推理模型改变了 Agent 自主能力边界（单次调用 Agent 替代了部分多步链） 3. Memory 成为第一性架构原语，而非向量数据库的附属

Memory 三层架构（2026）： - 不再是"选个向量数据库做 RAG" - Named structured fields in context window（Memory Blocks） - Agent 可在每轮读取/覆写自身状态

Eval 三-tier 收敛（与 SkillsBench 数据一致）： 1. 每次 PR 的快速检查（工具调用正确性） 2. 每夜回归套件（LLM 评判输出质量） 3. 持续生产监控（性能漂移告警）

新 Benchmark 涌现： - Context-Bench（记忆管理） - Recovery-Bench（错误恢复） - Terminal-Bench（编码 Agent）

Eval Gap 数据（LangChain 调查 2025年12月）： - 89% 生产 Agent 团队有可观测性 - 仅 52% 有评测体系 - 37个百分点 gap = 生产质量死亡线

后续行动：
建议与 awesome-ai-agents-2026 资源列表整合入 Agent 专题
关注 Layer 6 合规工具（MCP/A2A/ACP）
Eval Layer 是工程团队最薄弱环节，值得专题深入
标签：agent-stack architecture MCP memory evaluation 2026
建议分类：工程架构 / Agent 系统

条目S2：Comparative Analysis of RAG Architectures — Pipeline vs Agentic vs Knowledge Graph

来源：micheallanham.substack.com，2026年2月
专栏：Micheal Lanham（AI 工程化作者）
可信度：⭐⭐⭐⭐（有数据来源，对标 2026 State of AI Agents / LangChain 调查）
工程价值：⭐⭐⭐⭐

三大 RAG 架构对比：

维度	Pipeline RAG	Agentic RAG	Knowledge Graph RAG
适用场景	单跳问题、低延迟	多跳、迭代检索、自纠正	关系查询、全局数据集综合
检索方式	单次	迭代式循环	结构化图遍历
索引成本	低	中	高（需要 KG 构建）
工程复杂度	低	中-高	高
关系推理能力	无	中	强
延迟	低	中-高	中

2026 关键趋势： - 57% 的组织已部署多阶段 Agent - "质量"仍是首要生产障碍 - Microsoft Azure AI Search 推出"agentic retrieval" - Microsoft Research GraphRAG 继续演进 - 从"聊天"到"干活"是核心转变

后续行动：建议用于 RAG 选型决策文档
标签：RAG architecture-comparison knowledge-graph agentic-RAG 2026
建议分类：工程架构 / RAG 范式

条目S3：OWASP Top 10 Agents & AI Vulnerabilities 2026 Cheat Sheet

来源：alexewerlof.substack.com，Alex Ewerlof
可信度：⭐⭐⭐⭐（OWASP 项目，工程实践导向）
工程价值：⭐⭐⭐⭐⭐

核心内容：OWASP Top 10 AI（LLM01-LLM10）+ OWASP Top 10 Agents（ASI01-ASI10）

关键工程洞察： - Agentic Workload = LLM + while loop + API 访问 → 财务风险放大器 - LLMs 中的指令（system prompt, function calls）和数据（用户输入，RAG 文档）被拼接为单一字符串输入推理引擎 → Prompt 注入攻击面 - Agent 的工具通常以最高权限运行，与 LLM 的 Principle of Least Privilege 冲突

实用缓解建议： - Semantic Firewall：用隔离的、高度约束的二级模型评估输入/输出 - 严格实施最小权限原则于 Agent 工具访问控制

标签：security OWASP agent-security prompt-injection guardrails
建议分类：安全工程 / Agent 安全

三、CSDN 高价值条目（含版本/环境/源码信息）

⚠️ 注：CSDN 多篇文章遭遇 Cloudflare 521屏蔽，以下条目基于搜索摘要片段+版本信息评估，建议通过其他来源交叉验证。

条目C1：2026年 AI Agent 框架横向对比 — LangChain 2.3.1 / AutoGen 3.2.0 / CrewAI 2.7.0

来源：blog.csdn.net/2501_91483426
可信度：⭐⭐⭐（基于版本号，但全文不可获取）
工程价值：⭐⭐⭐⭐

版本边界（截至2026年Q2）： - LangChain 2.3.1（2026年Q2最新版） - AutoGen 3.2.0（2026年Q2最新版） - CrewAI 2.7.0（2026年Q2最新版） - 明确标注"不含内测版本或小众框架"

对比维度（从摘要推测）： - 全流程编排能力 - 多 Agent 协作模式 - 工具调用与 MCP 集成 - 生产部署成熟度

建议：建议通过官方文档或 GitHub README 交叉验证各框架版本功能差异
标签：LangChain AutoGen CrewAI agent-framework version 2026-Q2
建议分类：工程实践 / Agent 框架选型

条目C2：多 Agent 协作框架深度实战 — 从 ReAct 到 Plan

来源：blog.csdn.net/fox0329
可信度：⭐⭐⭐（含源码实现 + 双框架对比 + 踩坑记录）
工程价值：⭐⭐⭐⭐

文章声称内容： - 从架构原理出发，逐个给出源码实现 - CrewAI + LangGraph 双框架对比验证 - 附带4个真实踩坑记录和性能基准数据 - 帮助工程师选择多 Agent 协作方案

亮点：踩坑记录 + 性能基准 + 双框架源码对比 → 符合工程复现价值筛选标准 - 建议：建议通过 GitHub 实际代码仓库验证 - 标签：multi-agent CrewAI LangGraph ReAct source-code benchmark - 建议分类：工程实践 / 多 Agent 协作

条目C3：LangChain 1.0 正式发布 — 框架演进里程碑

来源：blog.csdn.net/zxsxj
可信度：⭐⭐⭐（含版本发布时间和迭代历史）
工程价值：⭐⭐⭐⭐

关键时间线： - LangChain 1.0：2025年10月20日正式发布 - LangChain 1.1 / 1.2：2025年11月、12月分别迭代 - 2026年保持高频迭代节奏 - LangGraph 作为底层编排引擎同步发布

标志意义：LangChain 从"实验性框架"进化为"覆盖开发全生命周期的工程平台" - 标签：LangChain LangGraph version-history 1.0 2025-2026 - 建议分类：工程实践 / Agent 框架演进

条目G1：hermes-agent — NousResearch 自适应个人 Agent 框架

来源：github.com/NousResearch/hermes-agent，2026年4月
可信度：⭐⭐⭐⭐⭐（NousResearch 官方，+6,485 stars 单日爆发）
工程价值：⭐⭐⭐⭐
定位："The agent that grows with you" — 自适应学习能力
代表趋势：开发者追求确定性、可复现、可观测的 Agent 系统
与 Claude Code 生态形成互补
标签：agent-framework NousResearch adaptive memory
建议分类：开源工具 / Agent 框架

条目G2：Claude Code 生态工具爆发（2026年5月）

来源：GitHub Trending，2026年5月
可信度：⭐⭐⭐⭐
工程价值：⭐⭐⭐⭐

爆发项目： - claude-plugins-official：Anthropic 官方插件目录（+2,549 stars） - codegraph：代码知识图谱（+3,684 stars） - Understand-Anything：交互式代码知识图谱（+1,393 stars） - ECC（+1,406 stars）：Claude Code 性能优化 harness - agentmemory（+1,609 stars）：持久化记忆 for AI 编码 Agent

核心趋势： - Claude Code 已成事实标准（Anthropic 的 CLI） - 社区竞相解决 Claude Code 的规模化瓶颈：token 消耗 + 工具调用开销 - Memory 和 Context 基础设施成为投资热点 - MCP 协议已成 Developer Tooling 的标配

标签：Claude-Code MCP memory context-optimization coding-agent
建议分类：开源工具 / Coding Agent 生态

条目G3：awesome-ai-agents-2026（活跃维护中）

来源：github.com/caramaschiHG/awesome-ai-agents-2026，1.1k ⭐，367 forks
可信度：⭐⭐⭐⭐⭐（持续月度更新，340+资源，20个分类）
工程价值：⭐⭐⭐⭐⭐

覆盖分类：编码 Agent / IDE 原生 Agent / 终端 CLI Agent / 自主软件工程师 / 多 Agent 编排 / RAG 与知识库 / 本地自托管 / 协议标准（MCP/A2A/ACP）/ 可观测性与评估 / 上下文优化

价值：工程选型可直接参考 - 标签：resource-list agent-framework MCP evaluation 2026 - 建议分类：工程资源 / Agent 生态全景

五、综合评价与后续行动

本次高价值条目优先级排序

优先级	条目	理由
P0	BRTR（arXiv 2603.06503）	多模态 RAG 新范式 + Benchmark 数据，填补电子表格场景空白
P0	AI Agents Stack 2026（六层）	当前最系统的 Agent 工程全景图，Eval Layer 痛点明确
P1	OWASP Agent Top 10	安全是生产落地前提条件
P1	Agentic vs Pipeline vs KG RAG 对比	RAG 选型直接参考
P1	GitHub Claude Code 生态爆发	工程落地的事实标准，代表 2026 下半年方向
P2	BRTR Text World Models	Agent 认知架构前沿
P2	CSDN LangChain/AutoGen/CrewAI 版本对比	需交叉验证

建议专题页更新

AI-Agent/架构栈/ai-agents-stack-2026（整合 AI Agents Stack + awesome-ai-agents-2026）
AI-Agent/评测基准/SkillsBench-2026（已在档，本次补充）
AI-Agent/安全/OWASP-Agent-Top10-2026（新建）
RAG/范式对比/agentic-vs-pipeline-vs-kg-2026（新建）
Multimodal/Agentic-RAG/BRTR-2026（新建）

精读建议

BRTR 原文第4节（Embedding 评测）+ 第5节（Ablation）
AI Agents Stack 2026全文（Eval Layer 不成熟是真实工程痛点）
OWASP Agent Top 10 原文（ASI01-ASI10 完整列表）

草稿生成时间：2026-06-14 16:20 CST / Jay