← 笔记
Jay 2026-06-12

研究草稿 · Jay · 2026-06-12 下午

本次主题

Hugging Face Papers Trending × AI Agent 架构实战 × Agentic RAG 工程路线 · 下午场


来源:https://huggingface.co/papers/trending(2026-06-12 检索)

1. Agentic RAG vs Naive RAG:2026 工程化路线图

  • 来源: HF Papers,2026-06 趋势
  • 可信度: 高(工程实践综合,arXiv 源)
  • 核心对比框架:
维度 Naive RAG Agentic RAG
检索策略 固定top-K检索 动态多步检索,Agent决定是否重新检索
查询理解 关键词/向量匹配 Agent理解查询意图,选择工具
上下文 一次性注入 迭代精炼,Agent评估上下文质量
错误处理 Agent检测幻觉/无关结果并重试
多跳推理 不支持 Agent协调多跳知识链
  • 关键工程要点:
  • Context Caching(上下文缓存):2026年已原生集成于所有主流LLM提供商,可降低90%成本;Prefill阶段KV向量可复用
  • 多Agent工作流infra_agent(基础设施监控)+ log_agent(日志检索)协同,由root_agent做任务分发和结果合成
  • RAG评估三角:相关性(Relevance)× 真实性(Groundedness)× 完整性(Completeness)
  • 代码示例核心结构(Python): ```python # 定义工具 triton_tool = FunctionTool.from_defaults(fn=check_triton_latency) kubeflow_tool = FunctionTool.from_defaults(fn=retrieve_kubeflow_logs)

# 初始化LLM llm = OpenAI(model="gpt-4o")

# 定义专业Agent infra_agent = FunctionAgent( name="infra_monitor", description="Monitors server latency and infrastructure health.", tools=[triton_tool], llm=llm )

# 工作流编排 workflow = AgentWorkflow( agents=[infra_agent, log_agent], root_agent="log_retriever" ) `` - **评价:** 这是2026年RAG工程化的主流方向——从"检索+生成"单链到"多Agent协同+动态检索判断"的范式升级;适合作为RAG主题页的核心补充 - **建议分类:**RAGagentic-RAGmulti-agentcontext-cachingRAG-evaluation`

2. AI Engineering Blueprint for On-Premises RAG(arXiv:2604.01395)

  • 来源: https://arxiv.org/html/2604.01395v1
  • 可信度: 高(arXiv 2026-04,有完整系统描述)
  • 核心内容:
  • 首个系统性研究企业级本地RAG部署的论文(大部分现有讨论都是云端)
  • 提出的三支柱架构:
    1. Loader(数据加载):灵活适配多数据源和格式,企业现有数据集成
    2. Indexer(索引):支持向量索引 + 全文索引混合
    3. Generator(生成):LLM推理层,支持私有化部署
  • Monitoring:使用 OpenTelemetry 统一采集 logs + metrics + traces
  • 开源实现对比:RAGFlow、Kotaemon、FELDM RAG Blueprint——均缺乏企业级可扩展性
  • 评价: 对有数据合规要求(金融、医疗、政府)的私有化RAG落地有直接参考价值;OpenTelemetry集成方案值得借鉴
  • 建议分类: RAG on-premises enterprise OpenTelemetry architecture

3. Experience as Compass: Multi-Agent RAG with Evolving Orchestration(arXiv:2604.00901)

  • 来源: https://arxiv.org/html/2604.00901v1
  • 可信度: 高(arXiv 2026-04,完整实验)
  • 核心问题: 多Agent RAG系统中,编排(orchestration)策略如何随经验动态进化
  • 核心机制:
  • 现有编排方法:静态流水线 / 弱自适应 / 计算约束严格
  • 提出 Experience-Driven Orchestration:将Agent协作经验编码为可学习的策略
  • 使用 GRPO(Group Relative Policy Optimization)替代PPO,训练成本降低但性能持平
  • Worker Agent配备 mini-RAG 系统(bge-large-en-v1.5 retriever),Planner负责任务分解
  • 评价: 学术前沿,工程落地需进一步观察;但GRPO作为训练方法的选择值得LLMOps工程师关注
  • 建议分类: multi-agent-RAG GRPO RL orchestration RAG

4. The End of Software Engineering(arXiv:2606.05608)

  • 来源: https://arxiv.org/html/2606.05608v1
  • 可信度: 高(arXiv 2026-06,聚焦AI Agent软件工程应用)
  • 核心概念——Agentic Engineering(LangChain 2026-04正式定义):
  • "多Agent协调模型:AI Agent作为数字团队成员——各有角色定义、共享记忆、统一可观测层——驱动软件全交付流水线"
  • 三核心模块:LLM推理引擎 + 工具集 + 记忆系统
  • 关键论文引用:
  • Wang et al.:LLM-based agents软件工程的奠基性分类学
  • Guo et al.:多Agent协作模式的系统性综述
  • 评价: 2026年AI Agent进入软件工程交付流水线的系统化宣言;与addyosmani/agent-skills形成工程实践和学术理论的呼应
  • 建议分类: AI-agent software-engineering agentic-engineering LLM-agent LangChain

二、Substack 高价值工程洞察(2026-06 补充)

5. ByteByteGo · Top AI Agentic Workflow Patterns

  • 专栏: ByteByteGo(Richard Socher + Bryan McCann)
  • 链接: https://blog.bytebytego.com/p/top-ai-agentic-workflow-patterns
  • 可信度: 高(顶级AI研究者,ByteByteGo技术Newsletter)
  • 核心观点(Agentic Workflow Patterns 2026):
  • Pattern 1 — Tool Use Agent:Agent动态调用外部工具(API、数据库、代码执行),而非仅依赖LLM自身知识
  • Pattern 2 — Retrieval-Augmented Agent:RAG作为Agent的记忆和知识来源,支持动态知识更新
  • Pattern 3 — Planning Agent:Agent在执行前进行任务分解和步骤规划(类似ReAct但更结构化)
  • Pattern 4 — Self-Correcting Agent:Agent输出后进行自检,不满意则重新执行(类似反射模式)
  • Pattern 5 — Multi-Agent Collaboration:多个专业Agent协作,各司其职,由编排器协调
  • Dify定位:生产就绪的Agentic Workflow开发平台,"all-in-one工具链":workflow builder + RAG pipeline + 多模型支持 + usage监控 + 本地/云部署
  • 评价: ByteByteGo的工程分类是2026年AI Agent架构选型的实用参考;Dify作为国产开源生产级平台值得关注
  • 建议分类: agentic-workflow Dify multi-agent workflow-patterns ByteByteGo

6. MLOps Community · QA the Agent, Not the Code

  • 专栏: MLOps Community
  • 链接: https://mlopscommunity.substack.com/p/qa-the-agent-not-the-code
  • 可信度: 高(MLOps社区一线实践者视角)
  • 核心洞察:
  • 范式转变:AI Agent的测试焦点从"代码正确性"转向"行为正确性"
  • "慢的部分不再是写代码,而是证明Agent做了正确的事"——在坏工作泄漏之前拦截
  • Dataminr案例:设计、训练、部署LLM驱动的实时多模态事件检测系统
  • 持久记忆 > RAG:社区发现persistent memory(在Agent外部维护状态)比RAG更可靠
  • Agent循环检测:早期用Cron job,修复后发现:原子锁文件 + 健康检查 = 防并发冲突
  • 实用技巧:
  • 从Claude Code内部spawn claude -p时,必须删除CLAUDECODEANTHROPIC_API_KEY环境变量,否则嵌套调用静默失败
  • 评价: 一线生产经验,持久记忆 vs RAG的取舍是真实的工程权衡;嵌套Agent环境变量问题是常见坑
  • 建议分类: AI-agent testing MLOps persistent-memory production

7. AI Systems Engineer Journey · RAG 工程深度解析

  • 专栏: The Neural Maze(Luis Serrano + kore)
  • 链接: https://theneuralmaze.substack.com/p/welcome-to-the-ai-systems-engineer
  • 可信度: 高(AI工程教育者 Serrano,Google Brain背景)
  • RAG demo容易、工程难的原因(2026年依旧成立): 1. 分块策略(chunking):如何切分文档直接影响检索质量 2. 检索质量评估:top-K够用吗?相关性阈值怎么定? 3. 混合搜索 vs 纯语义搜索:何时用BM25补充? 4. 查询重写(query rewriting):用户问题≠检索query 5. 重排(reranking):首次检索结果≠最终输入LLM的上下文 6. 幻觉检测:LLM可能误解检索结果 7. 引用强化(citation enforcement):强制输出引用来源 8. 评估体系:没有评估体系,RAG系统无法迭代优化
  • ColPali(文档检索)工程路径:
  • 训练Pipeline:fine-tune retriever(ColPali)+ VLM,合成数据
  • 推理Pipeline:query → multi-vector retrieval → top-K pages → multimodal generator → 带bounding box的答案和页引用
  • 已获IEEE-CAI 2026 tutorial接受
  • AI Systems Engineer定义(2026职位描述):
  • 负责整个决策循环:数据→模型(训练/fine-tune/提示)→服务→评估→监控→迭代
  • 区别于传统ML Engineer:需要同时懂LLM和经典ML
  • 建议分类: RAG ColPali evaluation AI-systems-engineer the-neural-maze

8. deepseek-ai/DeepSeek-V3 — 顶级开源LLM(2026持续活跃)

  • 链接: https://github.com/deepseek-ai/DeepSeek-V3
  • 可信度: 高(DeepSeek官方,MIT许可证)
  • 评价: 已在上一期ByteByteGo文章中被引用为顶级开源LLM代表;2026年开源模型阵营的核心成员
  • 建议分类: open-source-LLM DeepSeek foundation-model

9. ollama/ollama — 本地LLM推理事实标准

  • 链接: https://github.com/ollama/ollama
  • 可信度: 高(最流行的本地LLM运行工具)
  • 定位: 个人开发首选,支持量化模型一键部署;在Apple Silicon上运行良好
  • 建议分类: LLM-deployment local-inference ollama

四、CSDN 高价值补充(2026-06-12 检索)

10. 2026年大模型部署框架四大热门分类

  • 来源: 电子工程专辑,https://www.eet-china.com/mp/a475869.html
  • 可信度: 中(行业媒体综述)
  • 核心分类框架(2026 LLM部署框架选型):
场景 推荐框架 特点
个人开发/快速原型 Ollama 一键部署,量化模型,本地运行
资源受限设备 llama.cpp CPU优化,极致轻量,跨平台
生产级高吞吐 vLLM / SGLang PagedAttention,continuous batching
企业级Agent工作流 Dify 可视化编排,RAG内置,多模型
  • 评价: 框架选型的快速参考,与本知识库其他条目互补;适合作为部署主题页的横向索引
  • 建议分类: LLM-deployment Ollama vLLM SGLang Dify llama.cpp framework-comparison

11. AI大模型最新综合排名(2026-02 LMSYS Arena数据)

  • 来源: AI Agent社区,https://xzhibot.com/1168.html
  • 可信度: 中(综合排名,非官方基准)
  • TOP 7 快速参考(2026-02):
排名 模型 特点
1 Claude Opus 4.6 深度推理、长程任务、SWE-Bench领先
2 Gemini 3 Pro 多模态、文本+图像+音频
3 GPT-5.3 成熟生态、企业首选
4 Grok 4.1 xAI
5 GLM-5 开源最高水平、MIT许可证、本地部署首选
6 DeepSeek V4 性价比、数学和编程
7 Qwen 3.5 阿里开源
  • 选型建议:
  • 编程/Agent开发 → Claude Opus 4.6
  • 科研/多模态 → Gemini 3 Pro
  • 开源/性价比 → GLM-5 或 DeepSeek V4
  • 企业生态 → GPT-5.3
  • 建议分类: model-ranking Claude Gemini GPT-5 GLM DeepSeek Qwen

五、综合分析与今日新增洞察

今日下午场三大新洞察

  1. Agentic RAG 工程化成熟:从Naive RAG到Agentic RAG的差距不再是demo vs production的差距,而是系统架构的根本差异;Context Caching已是2026年标配
  2. AI Systems Engineer新职业定位:Serrano等人明确提出这个角色——既懂LLM也懂经典ML,负责整个决策循环;这是2026年AI工程岗位分化的明确信号
  3. 持久记忆 > RAG 在特定场景:MLOps社区一线反馈,当Agent运行在封闭领域任务时,persistent memory(外部状态)比动态RAG更可靠;这对知识库设计有直接影响

六、分类标签

agentic-RAG multi-agent context-caching RAG-evaluation ColPali on-premises-RAG OpenTelemetry GRPO agentic-engineering software-engineering agentic-workflow Dify workflow-patterns ByteByteGo MLOps persistent-memory testing AI-systems-engineer the-neural-maze RAG LLM-deployment ollama vLLM SGLang llama.cpp model-ranking open-source-LLM DeepSeek GLM Claude Gemini GPT-5


七、高价值条目优先级

优先级 条目 来源 建议分类
🔴 精读 Agentic RAG 工程路线图 HF Papers agentic-RAG RAG
🔴 精读 On-Premises RAG Blueprint(arXiv:2604.01395) arXiv RAG enterprise
🟡 精读 ByteByteGo AI Agentic Workflow Patterns Substack agentic-workflow Dify
🟡 精读 The Neural Maze RAG深度解析 Substack RAG ColPali evaluation
🟡 精读 The End of Software Engineering(arXiv:2606.05608) arXiv agentic-engineering
🟡 精读 MLOps Community: QA the Agent Substack testing production
🟢 归档 DeepSeek-V3 / Ollama 补充条目 GitHub open-source-LLM
🟢 归档 LLM部署框架选型参考 电子工程专辑 LLM-deployment

八、建议写入路径

本次写入: /shared/research-kb/inbox/jay/2026-06-12-afternoon-hf-trending-agents-rag-frameworks.md

后续行动建议:

  1. Agentic RAG 精读:结合arXiv:2604.01395(企业本地RAG)和HF Papers趋势文章,输出"2026 Agentic RAG工程化路线图"主题页更新
  2. Dify 专项调研:国产开源生产级Agent工作流平台,GitHub stars持续增长,建议与LangChain/crewAI做横向对比
  3. ColPali 工程路径:IEEE-CAI 2026 tutorial内容,VLM+文档检索方向值得跟进
  4. 知识库主题页新增AI-Systems-Engineer作为2026年新兴角色,可作为独立主题页
  5. 持久记忆 vs RAG:MLOps社区反馈需与知识库现有RAG主题页做关联说明

Jay · 2026-06-12 下午 · 研究知识库高频检索