研究知识库草稿 · Jay · 2026-06-14 下午批次(第4次)
本次主题
Agentic RAG 新范式 / 多模态 Agentic Retrieval / AI Agent Stack 2026 六层架构 / Agent 框架版本对比 / OWASP Agent 安全清单
一、arXiv 高价值条目
条目A1:BRTR — Beyond Rows to Reasoning:多模态电子表格 Agentic Retrieval 框架
- 来源:arXiv:2603.06503v1,2026年3月
- 类型:学术论文(多模态 RAG / Agentic Retrieval)
- 作者:研究团队(单位待考)
- 可信度:⭐⭐⭐⭐⭐(arXiv 正式论文,有 benchmark 数据支撑)
- 工程价值:⭐⭐⭐⭐⭐
核心贡献: - 提出 BRTR 框架(Beyond Rows to Reasoning),用迭代式工具调用循环替代单次检索,解决企业电子表格(百万单元格、跨Sheet依赖、嵌入图表)场景下的多步推理问题 - 三大组成模块: 1. 多模态电子表格索引(multimodal spreadsheet indexing) 2. Agentic 任务规划与分解(task planning and decomposition) 3. 多格式响应生成(multi-format response generation)+ 完整端到端工具调用审计
Benchmark 数据(超200小时人工评估): - FRTR-Bench:+25pp 超越 Prior 方法 - SpreadsheetLLM:+7pp - FINCH:+32pp
多模态 Embedding 模型评测: - 评测了5种多模态 embedding,NVIDIA NeMo Retriever 1B 在混合表格+视觉数据上表现最优 - GPT-5.2 在效率-准确率权衡上最优
关键工程洞察: - 单次检索在复杂工作簿上退化的根本原因:证据不足时无法重新查询 - BRTR 通过迭代式 re-query(证据不足时自动继续查询)维持接近完美的准确率 - Naive full-context 方法在超过 50K 单元格时超出 LLM context window,BRTR 通过 context budgeting 机制控制 token 增长
- 后续行动:
- 建议精读第4节(Embedding 评测细节)和第5节(Ablation 实验)
- 关注 BRTR 的context budgeting 机制源码实现
-
对企业数据分析 / 财务 AI 场景有直接参考价值
-
标签:
multimodal-RAGagentic-retrievalspreadsheet-AIbenchmarktool-calling - 建议分类:学术研究 / Multimodal RAG
条目A2:Text World Models for LLM-based Agents
- 来源:arXiv:2606.09032v1,2026年6月
- 类型:学术论文(Agent 认知架构)
- 可信度:⭐⭐⭐⭐⭐(arXiv 2026年6月最新)
- 工程价值:⭐⭐⭐⭐
核心论点: - 当前 LLM Agent 多为反应式(reactive):每步将当前观测映射到下一步动作,缺乏对环境的显式可检查世界模型 - Text World Model(WM):捕获环境结构及其在 Agent 动作下的演化,支持规划、高效学习和超越单步决策的评估 - 给定状态和候选动作,Text WM 预测结果文本状态(网页观测、终端输出、API响应、用户回复)
三种构建方式: 1. Prompt-based simulation(如 Hao et al., 2023; Gu et al., 2025) 2. Learned neural transition models(如 Chae et al., 2025; Xiao et al., 2026) 3. Programmatic/hybrid constructions
- 后续行动:关注 Text WM 与 ReAct/Plan-and-Execute 范式的对比评估数据
- 标签:
world-modelagent-architectureplanningreasoning - 建议分类:学术研究 / Agent 认知架构
条目A3:From Standalone LLMs to Integrated Intelligence — Compound AI Systems 综述
- 来源:arXiv:2506.04565v2,2025年6月,2026年仍有高引用
- 类型:综述论文(Compound AI Systems)
- 可信度:⭐⭐⭐⭐⭐
- 工程价值:⭐⭐⭐⭐
核心贡献: - 提出 Compound AI Systems(CAIS)多维分类法,基于组件角色和编排策略 - 四大基础范式: 1. RAG(Retrieval-Augmented Generation) 2. LLM Agents 3. Multimodal LLMs(MLLMs) 4. Orchestration - 提供结构化对比表: - RAG retriever paradigms(表2) - LLM agent reasoning frameworks(表3) - MLLM architectures(表5) - Orchestration frameworks(表7)
关键洞察:各组件调研此前是碎片化的,本综述首次系统性整合
- 标签:compound-AI CAIS survey RAG agent multimodal orchestration
- 建议分类:学术综述 / AI系统架构
二、Substack 高价值条目
条目S1:The AI Agents Stack(2026版)— The AI Engineer
- 来源:theaiengineer.substack.com,2026年3月
- 专栏:The AI Engineer(Paolo Perrone)
- 发布时间:2026年3月
- 可信度:⭐⭐⭐⭐⭐(高质量 AI 工程化作者,深度产业调研)
- 工程价值:⭐⭐⭐⭐⭐
核心内容:六层架构(2024 → 2026 演进)
| Layer | 名称 | 2024状态 | 2026状态 |
|---|---|---|---|
| 1 | Model | 核心层 | 基本不变 |
| 2 | Tooling / MCP | 新增(MCP协议标准化) | 重大变化 |
| 3 | Memory | "pick a vector DB and do RAG" | 三层架构 + Memory Blocks |
| 4 | Reasoning(单步→多步) | 单步或简单链 | 推理模型改变了一切 |
| 5 | Evaluation | 新兴 | 栈中最不成熟层 |
| 6 | Compliance(监管合规) | 几乎不存在 | 必备层 |
三大驱动因素(2024→2026地图重绘): 1. MCP 标准化了工具连接(MCP 是 2026 新出现的独立层) 2. 推理模型改变了 Agent 自主能力边界(单次调用 Agent 替代了部分多步链) 3. Memory 成为第一性架构原语,而非向量数据库的附属
Memory 三层架构(2026): - 不再是"选个向量数据库做 RAG" - Named structured fields in context window(Memory Blocks) - Agent 可在每轮读取/覆写自身状态
Eval 三-tier 收敛(与 SkillsBench 数据一致): 1. 每次 PR 的快速检查(工具调用正确性) 2. 每夜回归套件(LLM 评判输出质量) 3. 持续生产监控(性能漂移告警)
新 Benchmark 涌现: - Context-Bench(记忆管理) - Recovery-Bench(错误恢复) - Terminal-Bench(编码 Agent)
Eval Gap 数据(LangChain 调查 2025年12月): - 89% 生产 Agent 团队有可观测性 - 仅 52% 有评测体系 - 37个百分点 gap = 生产质量死亡线
- 后续行动:
- 建议与 awesome-ai-agents-2026 资源列表整合入 Agent 专题
- 关注 Layer 6 合规工具(MCP/A2A/ACP)
-
Eval Layer 是工程团队最薄弱环节,值得专题深入
-
标签:
agent-stackarchitectureMCPmemoryevaluation2026 - 建议分类:工程架构 / Agent 系统
条目S2:Comparative Analysis of RAG Architectures — Pipeline vs Agentic vs Knowledge Graph
- 来源:micheallanham.substack.com,2026年2月
- 专栏:Micheal Lanham(AI 工程化作者)
- 可信度:⭐⭐⭐⭐(有数据来源,对标 2026 State of AI Agents / LangChain 调查)
- 工程价值:⭐⭐⭐⭐
三大 RAG 架构对比:
| 维度 | Pipeline RAG | Agentic RAG | Knowledge Graph RAG |
|---|---|---|---|
| 适用场景 | 单跳问题、低延迟 | 多跳、迭代检索、自纠正 | 关系查询、全局数据集综合 |
| 检索方式 | 单次 | 迭代式循环 | 结构化图遍历 |
| 索引成本 | 低 | 中 | 高(需要 KG 构建) |
| 工程复杂度 | 低 | 中-高 | 高 |
| 关系推理能力 | 无 | 中 | 强 |
| 延迟 | 低 | 中-高 | 中 |
2026 关键趋势: - 57% 的组织已部署多阶段 Agent - "质量"仍是首要生产障碍 - Microsoft Azure AI Search 推出"agentic retrieval" - Microsoft Research GraphRAG 继续演进 - 从"聊天"到"干活"是核心转变
- 后续行动:建议用于 RAG 选型决策文档
- 标签:
RAGarchitecture-comparisonknowledge-graphagentic-RAG2026 - 建议分类:工程架构 / RAG 范式
条目S3:OWASP Top 10 Agents & AI Vulnerabilities 2026 Cheat Sheet
- 来源:alexewerlof.substack.com,Alex Ewerlof
- 可信度:⭐⭐⭐⭐(OWASP 项目,工程实践导向)
- 工程价值:⭐⭐⭐⭐⭐
核心内容:OWASP Top 10 AI(LLM01-LLM10)+ OWASP Top 10 Agents(ASI01-ASI10)
关键工程洞察: - Agentic Workload = LLM + while loop + API 访问 → 财务风险放大器 - LLMs 中的指令(system prompt, function calls)和数据(用户输入,RAG 文档)被拼接为单一字符串输入推理引擎 → Prompt 注入攻击面 - Agent 的工具通常以最高权限运行,与 LLM 的 Principle of Least Privilege 冲突
实用缓解建议: - Semantic Firewall:用隔离的、高度约束的二级模型评估输入/输出 - 严格实施最小权限原则于 Agent 工具访问控制
- 标签:
securityOWASPagent-securityprompt-injectionguardrails - 建议分类:安全工程 / Agent 安全
三、CSDN 高价值条目(含版本/环境/源码信息)
⚠️ 注:CSDN 多篇文章遭遇 Cloudflare 521屏蔽,以下条目基于搜索摘要片段+版本信息评估,建议通过其他来源交叉验证。
条目C1:2026年 AI Agent 框架横向对比 — LangChain 2.3.1 / AutoGen 3.2.0 / CrewAI 2.7.0
- 来源:blog.csdn.net/2501_91483426
- 可信度:⭐⭐⭐(基于版本号,但全文不可获取)
- 工程价值:⭐⭐⭐⭐
版本边界(截至2026年Q2): - LangChain 2.3.1(2026年Q2最新版) - AutoGen 3.2.0(2026年Q2最新版) - CrewAI 2.7.0(2026年Q2最新版) - 明确标注"不含内测版本或小众框架"
对比维度(从摘要推测): - 全流程编排能力 - 多 Agent 协作模式 - 工具调用与 MCP 集成 - 生产部署成熟度
- 建议:建议通过官方文档或 GitHub README 交叉验证各框架版本功能差异
- 标签:
LangChainAutoGenCrewAIagent-frameworkversion2026-Q2 - 建议分类:工程实践 / Agent 框架选型
条目C2:多 Agent 协作框架深度实战 — 从 ReAct 到 Plan
- 来源:blog.csdn.net/fox0329
- 可信度:⭐⭐⭐(含源码实现 + 双框架对比 + 踩坑记录)
- 工程价值:⭐⭐⭐⭐
文章声称内容: - 从架构原理出发,逐个给出源码实现 - CrewAI + LangGraph 双框架对比验证 - 附带4个真实踩坑记录和性能基准数据 - 帮助工程师选择多 Agent 协作方案
亮点:踩坑记录 + 性能基准 + 双框架源码对比 → 符合工程复现价值筛选标准
- 建议:建议通过 GitHub 实际代码仓库验证
- 标签:multi-agent CrewAI LangGraph ReAct source-code benchmark
- 建议分类:工程实践 / 多 Agent 协作
条目C3:LangChain 1.0 正式发布 — 框架演进里程碑
- 来源:blog.csdn.net/zxsxj
- 可信度:⭐⭐⭐(含版本发布时间和迭代历史)
- 工程价值:⭐⭐⭐⭐
关键时间线: - LangChain 1.0:2025年10月20日正式发布 - LangChain 1.1 / 1.2:2025年11月、12月分别迭代 - 2026年保持高频迭代节奏 - LangGraph 作为底层编排引擎同步发布
标志意义:LangChain 从"实验性框架"进化为"覆盖开发全生命周期的工程平台"
- 标签:LangChain LangGraph version-history 1.0 2025-2026
- 建议分类:工程实践 / Agent 框架演进
四、GitHub Trending 高价值条目(2026年5月-6月)
条目G1:hermes-agent — NousResearch 自适应个人 Agent 框架
- 来源:github.com/NousResearch/hermes-agent,2026年4月
- 可信度:⭐⭐⭐⭐⭐(NousResearch 官方,+6,485 stars 单日爆发)
- 工程价值:⭐⭐⭐⭐
- 定位:"The agent that grows with you" — 自适应学习能力
- 代表趋势:开发者追求确定性、可复现、可观测的 Agent 系统
-
与 Claude Code 生态形成互补
-
标签:
agent-frameworkNousResearchadaptivememory - 建议分类:开源工具 / Agent 框架
条目G2:Claude Code 生态工具爆发(2026年5月)
- 来源:GitHub Trending,2026年5月
- 可信度:⭐⭐⭐⭐
- 工程价值:⭐⭐⭐⭐
爆发项目:
- claude-plugins-official:Anthropic 官方插件目录(+2,549 stars)
- codegraph:代码知识图谱(+3,684 stars)
- Understand-Anything:交互式代码知识图谱(+1,393 stars)
- ECC(+1,406 stars):Claude Code 性能优化 harness
- agentmemory(+1,609 stars):持久化记忆 for AI 编码 Agent
核心趋势: - Claude Code 已成事实标准(Anthropic 的 CLI) - 社区竞相解决 Claude Code 的规模化瓶颈:token 消耗 + 工具调用开销 - Memory 和 Context 基础设施成为投资热点 - MCP 协议已成 Developer Tooling 的标配
- 标签:
Claude-CodeMCPmemorycontext-optimizationcoding-agent - 建议分类:开源工具 / Coding Agent 生态
条目G3:awesome-ai-agents-2026(活跃维护中)
- 来源:github.com/caramaschiHG/awesome-ai-agents-2026,1.1k ⭐,367 forks
- 可信度:⭐⭐⭐⭐⭐(持续月度更新,340+资源,20个分类)
- 工程价值:⭐⭐⭐⭐⭐
覆盖分类:编码 Agent / IDE 原生 Agent / 终端 CLI Agent / 自主软件工程师 / 多 Agent 编排 / RAG 与知识库 / 本地自托管 / 协议标准(MCP/A2A/ACP)/ 可观测性与评估 / 上下文优化
价值:工程选型可直接参考
- 标签:resource-list agent-framework MCP evaluation 2026
- 建议分类:工程资源 / Agent 生态全景
五、综合评价与后续行动
本次高价值条目优先级排序
| 优先级 | 条目 | 理由 |
|---|---|---|
| P0 | BRTR(arXiv 2603.06503) | 多模态 RAG 新范式 + Benchmark 数据,填补电子表格场景空白 |
| P0 | AI Agents Stack 2026(六层) | 当前最系统的 Agent 工程全景图,Eval Layer 痛点明确 |
| P1 | OWASP Agent Top 10 | 安全是生产落地前提条件 |
| P1 | Agentic vs Pipeline vs KG RAG 对比 | RAG 选型直接参考 |
| P1 | GitHub Claude Code 生态爆发 | 工程落地的事实标准,代表 2026 下半年方向 |
| P2 | BRTR Text World Models | Agent 认知架构前沿 |
| P2 | CSDN LangChain/AutoGen/CrewAI 版本对比 | 需交叉验证 |
建议专题页更新
- AI-Agent/架构栈/ai-agents-stack-2026(整合 AI Agents Stack + awesome-ai-agents-2026)
- AI-Agent/评测基准/SkillsBench-2026(已在档,本次补充)
- AI-Agent/安全/OWASP-Agent-Top10-2026(新建)
- RAG/范式对比/agentic-vs-pipeline-vs-kg-2026(新建)
- Multimodal/Agentic-RAG/BRTR-2026(新建)
精读建议
- BRTR 原文第4节(Embedding 评测)+ 第5节(Ablation)
- AI Agents Stack 2026全文(Eval Layer 不成熟是真实工程痛点)
- OWASP Agent Top 10 原文(ASI01-ASI10 完整列表)
草稿生成时间:2026-06-14 16:20 CST / Jay