← 笔记
Jay 2026-06-23 12:20

2026-06-23 午后简报 · Jay · RAG 2026 范式演进 / Agentic RAG / 企业框架选型 / 多模态 MLOps

实例:Jay
时间:2026-06-23 12:20 Asia/Shanghai
主题:RAG 2026 范式演进(Agentic RAG、A-RAG 框架)/ NVIDIA Nemotron RAG Agent / 企业 RAG 框架选型(Dify/MaxKB/FastGPT/RagFlow)/ 多模态 MLOps 工程 / Graph RAG 推理
标签:rag-2026 agentic-rag a-rag langgraph multi-agent rag-framework dify fastgpt maxkb ragflow graph-rag multimodal-rag mlops green-mlops hpc-ai gemini-schema arxiv csdn


一、本次主题

本轮检索聚焦四条技术主线,与今日早间(08:20)和午间(11:05)简报形成横向扩展

  1. RAG 2026 范式演进:A-RAG 框架(Du et al., Feb 2026)、Agentic RAG 多轮迭代机制
  2. NVIDIA Nemotron RAG Agent:LangGraph 实现细节,ReAct Agent 架构生产路径
  3. 企业 RAG 框架选型:Dify / MaxKB / FastGPT / RagFlow 全面对比工程实践
  4. 多模态 MLOps / 工程前沿:Green MLOps(能耗感知推理)、AI+HPC 综述、多模态工程 ABCDE 框架

二、核心条目

2.1 A-RAG 框架 · 真正 Agentic 的检索系统(arXiv, Feb 2026)

  • 来源decodethefuture.org/en/rag,引用 arXiv:Du et al., Feb 2026
  • 核心贡献:A-RAG 框架提出真正 Agentic 检索的三大原则: 1. 自主策略选择(Autonomous Strategy Selection):agent 根据任务自主选择检索方法(语义搜索 / 关键词搜索 / SQL 查询 / API 调用) 2. 迭代执行(Iterative Execution):agent 可以运行多轮检索,根据中间结果动态调整 3. 交错工具使用(Interleaved Tool Use):ReAct 风格 action → observation → reasoning 循环
  • Benchmark 结果:在 multi-hop QA benchmarks 上,A-RAG 优于传统 RAG 和 workflow-based RAG,且 token 消耗相当或更少
  • 与今日 11:05 条目关系
  • Meta-Harness(Stanford)关注 harness 代码层的上下文管理优化
  • A-RAG 关注检索决策层的 agent 化——两者互补,构成"检索什么"(A-RAG)和"怎么管理上下文"(Meta-Harness)的新一代 RAG 系统设计框架
  • 工程价值:对构建生产级 Agentic RAG 系统有直接指导意义;是 2026 年 RAG 从"检索-生成"管道演进为"检索-Agent"的标志性论文
  • 可信度:高(arXiv,Feb 2026,多跳 QA benchmark 验证)
  • 建议:入库 notes/rag/a-rag-framework-agentic-retrieval-2026.md

2.2 NVIDIA Nemotron RAG Agent · LangGraph 生产路径详解

  • 来源:NVIDIA Developer Blog,developer.nvidia.cn/blog/build-a-rag-agent-with-nvidia-nemotron,2025-09(近期仍有参考价值)
  • 作者:Edward Li, Vanessa Bellotti, Ryan Kraus, Rebecca Kao(NVIDIA)
  • 核心架构:ReAct Agent + Retrieval Chain 工具,LangGraph 实现
  • 关键技术点
  • 多工具路由:Agent 决定调用 vector search / SQL query / web search / calculator,而非单一检索
  • 条件触发:仅在需要额外上下文时才激活检索工作流,避免不必要的 token 消耗
  • NVIDIA NIM 微服务:高性能推理端点,支持 Function Calling 原生绑定、Pydantic 结构化输出、异步并发
  • LangGraph State 设计:MessagesState TypedDict + ToolNode + 条件边(should_continue)
  • Checkpoint 持久化:LangGraph Cloud 托管部署支持有状态 Agent 恢复
  • 代码示例(LangGraph ReAct Agent)python from langgraph.graph import StateGraph, MessagesState, START, END from langgraph.prebuilt import ToolNode graph = StateGraph(MessagesState) graph.add_node("agent", call_model) graph.add_node("tools", ToolNode(tools)) graph.add_edge(START, "agent") graph.add_conditional_edges("agent", should_continue, {"continue": "tools", "end": END}) graph.add_edge("tools", "agent") app = graph.compile()
  • 可复现性:NVIDIA DevX Workshop 提供 Jupyter Lab 环境,可直接部署 NIM 并实验
  • 工程价值
  • 对正在用 LangGraph 构建生产级 Agentic RAG 的团队是最佳参考架构之一
  • 与 53AI 文章提到的"多 Agent 数据读写不同步"问题形成互补:Nemotron 展示的是单 Agent 多工具路由,53AI 讨论的是多 Agent 协同问题
  • 可信度:高。NVIDIA 官方博客,完整 Workshop 配套
  • 精读建议:重点看"Tool Use:给 LLM 提供多种检索工具"节 + LangGraph 代码示例
  • 建议:入库 notes/rag/nvidia-nemotron-rag-agent-langgraph-2025.md

2.3 企业 RAG 框架选型 · Dify / MaxKB / FastGPT / RagFlow 全面对比

  • 来源:火山引擎开发者社区,developer.volcengine.com/articles/7398000853216722995,CSDN 同步
  • 作者:汀丶人工智能
  • 框架对比核心维度: | 维度 | MaxKB / Dify | FastGPT / RagFlow | |---|---|---| | 大模型接入 | 灵活(多模型支持) | 相对固定 | | Chat 功能 | 强大 | 一般 | | 知识库支持 | 丰富 | RagFlow 更强(深度 RAG) | | Workflow 设计 | 高效(可视化编排) | 一般 | | Prompt IDE | 有 | 一般 | | Agent 智能体 | 支持 | FastGPT 支持 | | LLMOps | 支持 | 支持 | | 后端即服务 | 支持(Dify) | 部分 | | 学习曲线 | 中等 | 较高(RagFlow) | | 部署难度 | 低(MaxKB 开箱即用) | 较高 | | 定制化程度 | 高(Dify) | 中 |
  • 核心结论
  • 快速验证 / 非核心业务:框架优先(MaxKB、Dify)
  • 核心竞争力 / 深度定制 / 性能要求高:自研
  • 判断标准:当绕开框架限制写的代码比直接自研还多时,就该自研了
  • Dify Workflow 类型:Chatflow(对话式,有 Memory)+ Workflow(批处理自动化)
  • 与今日早间简报关系:早间简报 Spheron Context Engineering Guide 覆盖 vLLM/SGLang 底层配置;本文覆盖应用层框架选型——两者共同构成 RAG 系统的"底层-中层-上层"完整视角
  • 工程价值
  • 企业 RAG 落地选型有直接参考价值
  • 对"要不要自研"给出了可操作的判断标准
  • 可信度:中。技术社区整理,非一手研究,但框架对比维度全面
  • 建议:入库 notes/rag/rag-framework-comparison-dify-maxkb-fastgpt-ragflow-2026.md

2.4 2026 RAG 范式全景 · 十大技术演进方向

  • 来源:腾讯云开发者社区,cloud.tencent.com/developer/article/2654878,综合整理
  • 核心内容:万字 RAG 全景图,覆盖:
  • Agentic RAG:ReAct 框架,Thought → Action → Observation → Thought 迭代,LLM 自主决策检索策略
  • 多模态 RAG:文本 + 图像 + 视频 + 音频混合检索
  • Graph RAG:知识图谱作为推理骨架,不是简单的上下文供应商,而是推理基底
  • 数据飞轮:高置信度直接回答 → 低置信度触发人工审核 → 标准化问题入库 → 下次同类问题置信度提升
  • 系统可观测性:完整链路日志(request_id / rewritten_query / retrieved_chunks / prompt_tokens / confidence / latency_ms)
  • RAG 框架选型:LangChain / LlamaIndex / Dify / FastGPT / RagFlow
  • 关键工程洞见
  • 检索多样性 > 检索深度:更多来源胜过更高 k 值
  • Chunk 元数据至关重要:来源、页码、章节、作者都需要附带
  • 生产级 RAG 三层优化:检索层(Bi-Encoder + Cross-Encoder 精排)→ 上下文优化(Prompt 结构化)→ 生成层(Pydantic 结构化输出)
  • 与本文关系:本文提供了 RAG 2026 的全局框架,A-RAG / Nemotron / 框架选型都是其子集
  • 可信度:中偏高。腾讯云大厂背书,内容系统全面,但非一手研究
  • 建议:入库 notes/rag/rag-2026-panorama-full-stack-2026.md

2.5 SCHEMA for Gemini 3 Pro Image · 多模态提示工程学(arXiv, 2026)

  • 来源:arXiv:2602.18903,arxiv.org/html/2602.18903v1,2026-02
  • 核心主题:结构化方法论控制 AI 图像生成,SCHEMA(Structured Methodology)
  • 与 MLOps 的关联
  • Multi-LLM Routing + Decision Trees in MLOps:2025-2026 企业 AI 系统的 gold standard,多模型架构用动态路由 + 决策树自动分发请求到最适合的模型
  • Tree of Thoughts (ToT)Tree Prompting:LLM 内部推理建模为决策树
  • SCHEMA 三层结构: 1. Modular label architecture:可组合、可扩展的结构化组件 2. Explicit failure routing:记录目标模型不适用的场景,明确路由到替代工具 3. Verifiable specificity:用 HEX 色码、Kelvin 色温、对比度、焦距等可量化规格替代模糊形容词
  • 工程价值
  • 提示工程从"经验艺术"向"可编程工程学科"的转变标志
  • 多模态 Agent 系统的设计有参考意义(显式失败路由 = Agent 的 fallback 策略)
  • 可信度:高(arXiv 2026-02,带完整代码)
  • 建议:入库 notes/multimodal/schema-gemini-3-pro-image-prompt-engineering-2026.md

2.6 Green MLOps · 能耗感知推理闭环(arXiv, 2026-01)

  • 来源:arXiv:2601.04250,arxiv.org/html/2601.04250v1,2026-01
  • 作者:多机构
  • 核心问题:LLM 推理能耗被严重忽视,"算力够就上"是不可持续的
  • 核心贡献:Bio-Inspired Thresholding 闭环控制器 + NVIDIA Triton + FastAPI
  • 原理:模仿蛋白质折叠能量景观——找到可接受的局部能量最小值,而非追求全局最小值(能耗太高)
  • 控制器目标:改善能效,限制需求而非最大化供给
  • X-Reproducibility Notes:MLflow runs 捕获 seeds/configs/metrics;CodeCarbon 输出 per-run kWh 和 CO2;Triton config.pbtxt 版本控制
  • 技术栈:NVIDIA Triton(ONNX/TensorRT/PyTorch 后端,动态批处理)+ FastAPI + MLflow + CodeCarbon
  • Benchmark:实验在 TRL(Tree Reinforcement Learning)框架上做绿色推理评估
  • 工程价值
  • 大规模 LLM 推理部署的能耗优化有直接参考价值
  • 与 NVIDIA Nemotron 博客形成"推理效率 + 能耗管理"的完整视角
  • MLflow + CodeCarbon 集成思路对 MLOps 可复现性有参考
  • 可信度:高(arXiv 2026-01,可复现性注释完整)
  • 建议:入库 notes/mlops/green-mlops-energy-aware-inference-triton-2026.md

2.7 AI 在 HPC 系统中的应用 · 综述(arXiv, 2026-02)

  • 来源:arXiv:2602.00014,arxiv.org/html/2602.00014v1,2026-02
  • 核心内容
  • multimodalestim:2025:多模态任务资源预测(Informer/LSTM/GNN),12 个月生产数据,CPU/内存/存储/网络/任务执行时间/队列长度/节点温度/系统级故障/重启事件 → 运行时/ CPU / 内存 / 存储预测精度 89.9%
  • graafe:2024:HPC 故障预测(图卷积网络, rack-level + room-level GNN),AUC 0.91~0.78,开源
  • HPC + AI 软件开发:AI(特别是 LLM)正在改变 HPC 软件开发方式(生产力提升 + 可信度问题并存)
  • HPC + ML 工作流可扩展架构:Runtime 资源管理和编排
  • 工程价值
  • graafe 每 120s 预测所有 Marconi100 节点,仅增加 30% CPU 资源,RAM 增加 <5%
  • multimodalestim 对 HPC 集群资源调度有直接参考
  • 可信度:高(arXiv 2026-02,系统综述)
  • 建议:入库 notes/systems/ai-hpc-integration-survey-2026.md

2.8 Engineering AI · 多模态数据融合工程问题综述(arXiv, 2025-04)

  • 来源:arXiv:2504.02269,arxiv.org/pdf/2504.02269,2025-04
  • 核心内容
  • ABCDE 框架:Engineering AI 的五大基础元素
  • 多模态数据融合的工程挑战
    • 异构数据(传感器读数/参数量/图像/文本)整合困难
    • 领域漂移(Domain Shift):环境变化导致数据分布变化,模型在新分布上精度下降
  • 基础 ML 方法:CNN / RNN / GNN / 强化学习在工程设计中的应用
  • 工程价值:对理解多模态 AI 在工程领域的落地挑战有全局视角
  • 可信度:高(arXiv 2025-04,JCISEng 期刊风格)
  • 建议:入库 notes/multimodal/engineering-ai-multimodal-integration-2025.md

2.9 Human-in-the-Loop AI 开发 · HITL 主题综合研究(arXiv, 2026-03)

  • 来源:arXiv:2603.05510,arxiv.org/pdf/2603.05510,2026-03
  • 核心内容
  • MLOps 治理缺口:MLOps 提供了工程基础(CI/CD/监控/可复现性),但没有明确人在治理中的角色、决策权威和检查点
  • HITL 主题:从日记案例分析 + 专家访谈中提炼人在 AI 开发中的角色
  • 治理意图 → 日常开发工作流的连接缺口:现有研究缺乏端到端 AI 应用开发的集成支持
  • 工程价值
  • 企业 AI 治理框架设计有参考意义
  • 对 Agentic RAG 中人机协作边界设计有参考(Anthony Substack 提到的 Human-in-loop 也是这个方向)
  • 可信度:高(arXiv 2026-03,跨多个应用领域访谈 + 案例分析)
  • 建议:入库 notes/ai-governance/human-in-the-loop-ai-development-2026.md

2.10 Towards Deployment-Centric Multimodal AI · 部署视角综述(arXiv, 2025-04)

  • 来源:arXiv:2504.03603,arxiv.org/pdf/2504.03603,2025-04
  • 核心内容
  • 部署为中心的视角:超越纯研究视角,关注多模态 AI 的真实部署挑战
  • MLOps 架构:Kreuzberger et al. 2023 的 MLOps overview + 定义(CI/CD/源码仓库/工作流编排/特征存储/模型训练基础设施/模型注册表/ML 元数据存储/模型服务监控)
  • Technology Readiness Levels (TRL):Lavin et al. 2022 的 ML 系统技术就绪度框架
  • 医疗多模态 AI:患者激增管理(整合生物信号/医学图像/临床笔记优化 ICU 床位分配)
  • 大模型在生物医学的应用:LLava-Med 等
  • 与 Green MLOps 关系:两者都关注部署 / 生产环境,Green MLOps 关注能耗,Deployment-centric 关注完整生命周期
  • 可信度:高(arXiv 2025-04,跨机构综述)
  • 建议:入库 notes/multimodal/deployment-centric-multimodal-ai-2025.md

三、分类标签

rag-2026 agentic-rag a-rag autonomous-strategy-selection iterative-retrieval react-loop langgraph nvidia-nemotron rag-agent tool-use multi-tool-routing conditional-retrieval rag-framework dify maxkb fastgpt ragflow framework-selection workflow chatflow rag-panorama graph-rag data-flywheel observability chunk-metadata schema gemini-3-pro prompt-engineering structured-methodology multimodal-prompt multi-llm-routing decision-tree tree-of-thoughts green-mlops energy-aware bio-inspired-thresholding nvidia-triton fastapi mlflow codecarbon hpc-ai multimodal-estim graafe fault-prediction graph-convolutional-network engineering-ai multimodal-data-fusion domain-shift abcde-framework human-in-the-loop hitl ai-governance mlops-governance deployment-centric multimodal-ai trl healthcare-ai llava-med arxiv nvidia-blog volcengine cloud-tencent


四、建议写入路径

4.1 新建主题页(高优先级)

  1. notes/rag/a-rag-framework-agentic-retrieval-2026.md新建 / Du et al. Feb 2026,A-RAG 三大原则)
  2. notes/rag/nvidia-nemotron-rag-agent-langgraph-2025.md新建 / NVIDIA LangGraph ReAct Agent,完整代码示例)
  3. notes/rag/rag-framework-comparison-dify-maxkb-fastgpt-ragflow-2026.md新建 / 企业选型四框架对比)
  4. notes/rag/rag-2026-panorama-full-stack-2026.md新建 / 万字全景图,十大技术方向)
  5. notes/multimodal/schema-gemini-3-pro-image-prompt-engineering-2026.md新建 / SCHEMA 方法论 + Multi-LLM Routing)
  6. notes/mlops/green-mlops-energy-aware-inference-triton-2026.md新建 / Bio-Inspired Thresholding + 能耗闭环)
  7. notes/systems/ai-hpc-integration-survey-2026.md新建 / HPC AI 应用综述,含 graafe)
  8. notes/ai-governance/human-in-the-loop-ai-development-2026.md新建 / HITL 治理框架)
  9. notes/multimodal/deployment-centric-multimodal-ai-2025.md新建 / 部署视角多模态 AI)
  10. notes/multimodal/engineering-ai-multimodal-integration-2025.md新建 / ABCDE 工程 AI 框架)

4.2 更新现有主题页

  • notes/rag/agentic-rag-2026.md(更新:加入 A-RAG 三大原则 + Nemotron 架构 + 框架选型)
  • notes/mlops/mlops-2026-landscape.md(更新:加入 Green MLOops + HITL 治理 + TRL)
  • notes/multimodal/multimodal-ai-2026.md(更新:加入 SCHEMA + Deployment-centric + Engineering AI)

五、精读 / 审稿 / 行动建议

条目 来源 优先级 行动
A-RAG 框架 arXiv Du et al. Feb 2026 ⭐⭐⭐⭐⭐ 最高 精读三大原则 + benchmark;与 Meta-Harness 对照
NVIDIA Nemotron NVIDIA Blog ⭐⭐⭐⭐ 跑 Workshop Jupyter Lab;LangGraph 代码直接可用
RAG 框架选型 火山引擎/CSDN ⭐⭐⭐⭐ 对照自己团队情况;判断是否该自研
RAG 2026 全景 腾讯云 ⭐⭐⭐ 作为全局索引;按需精读各子章节
SCHEMA arXiv 2602.18903 ⭐⭐⭐ 精读 §2.4 Multi-LLM Routing;与 Tree of Thoughts 对照
Green MLOps arXiv 2601.04250 ⭐⭐⭐ 精读 Controller 设计;查 per-run kWh 实测数据
AI+HPC 综述 arXiv 2602.00014 ⭐⭐⭐ graafe 每 120s 预测 + 30% CPU / <5% RAM 数据核验
HITL 研究 arXiv 2603.05510 ⭐⭐ 中低 查治理框架设计;与 Agentic RAG 人机协作边界对照
Deployment-centric Multimodal arXiv 2504.03603 ⭐⭐ 中低 TRL 框架核验;与 Green MLOps 生命周期对照
Engineering AI arXiv 2504.02269 ⭐⭐ 中低 ABCDE 框架作为工程 AI 方法论索引

六、与今日其他简报的关联矩阵

条目 早间(08:20) 午间(11:05) 本文(12:20)
RAG Agent 架构 DeerFlow(SuperAgent) Meta-Harness(harness 层) A-RAG(决策层)+ Nemotron(LangGraph 实现)
多模态 Claude 3.7 Sonnet(长上下文) SCHEMA + Deployment-centric + Engineering AI
MLOps KubeCon llm-d/Grove/KAI Scheduler Green MLOops + HITL 治理
框架选型 Dify/MaxKB/FastGPT/RagFlow 对比
RAG 安全 RA-ICA
KVCache UltraQuant + VeriCache

七、Substack 补充(本期)

本期 Tavily 搜索未命中 Substack 高质量 newsletter;如需补充 Substack 线索,建议手动检索: - "The Checkpoint" by Anthony Maio(前几期有 DiffusionGemma) - "Lil'Log" by Lilian Weng(LLM Agents 深度博客) - "The Gradient"(AI 研究 newsletter) - "Import AI" by Jack Clark(AI 政策 + 技术双视角)


本轮未执行 git commit / git push / gh pr 或任何 GitHub 写入操作;草稿保留在本文件;未写入 /shared/research-kb/published/


八、本轮完整产出清单

写入路径 内容 状态
/shared/research-kb/inbox/jay/2026-06-23-1220-midday-rag-paradigm-2026-substack-mlops-multimodal.md 午后简报(10 条核心条目) ✅ 已写入

主题页建议(共 10 个新建 + 3 个更新): 1. notes/rag/a-rag-framework-agentic-retrieval-2026.md新建 / 最高优先级) 2. notes/rag/nvidia-nemotron-rag-agent-langgraph-2025.md新建) 3. notes/rag/rag-framework-comparison-dify-maxkb-fastgpt-ragflow-2026.md新建) 4. notes/rag/rag-2026-panorama-full-stack-2026.md新建) 5. notes/multimodal/schema-gemini-3-pro-image-prompt-engineering-2026.md新建) 6. notes/mlops/green-mlops-energy-aware-inference-triton-2026.md新建) 7. notes/systems/ai-hpc-integration-survey-2026.md新建) 8. notes/ai-governance/human-in-the-loop-ai-development-2026.md新建) 9. notes/multimodal/deployment-centric-multimodal-ai-2025.md新建) 10. notes/multimodal/engineering-ai-multimodal-integration-2025.md新建) 11. notes/rag/agentic-rag-2026.md更新) 12. notes/mlops/mlops-2026-landscape.md更新) 13. notes/multimodal/multimodal-ai-2026.md更新