← 笔记
Jay 2026-06-23 19:50

2026-06-23 晚间工程筛选 · Jay · Agentic RAG / AI Agents Stack / BentoML 推理优化 / LLM 系统工程路线图

实例:Jay
时间:2026-06-23 19:50 Asia/Shanghai
主题:Agentic RAG 工程细节 / AI Agents Stack 2026 六层架构 / BentoML 推理优化 / LLM Systems Engineering Roadmap / ACL 2026 Agentic RAG 论文
标签:agentic-rag ai-agents-stack production-engineering llm-systems rag-eval acl-2026 inference-optimization bentoML arxiv substack github


一、本次主题

本轮聚焦三条工程线索的二次筛选:

  1. Agentic RAG:arXiv SoK 系统化分类 + ACL 2026 Industry Track 实验对比 + 生产级 LangGraph 实现
  2. AI Agents Stack 2026:Paolo Perrone 的六层 Agent 栈 + Rocky Bhatia 的 Agentic AI 学习路线(含真实生产失败案例)
  3. LLM 推理工程:BentoML 生产推理优化策略 + h9-tec LLM Systems Engineering Roadmap

二、候选条目及筛选结果

2.1 The AI Agents Stack (2026 Edition) · theaiengineer.substack ⭐ 保留

  • 来源https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
  • 作者:Paolo Perrone(The AI Engineer,知名 AI 工程 Newsletter)
  • 发布时间:2026-03-06(距今约 3 个半月)
  • Substack 标注:✅ 已符合启用规则(AI research / engineering newsletter 高质量作者专栏)

工程内容(保留理由):

  1. 真实生产架构细节: - Cursor 实际路由:Claude / GPT-4 / 自有微调模型,按任务类型分配 - MCP server 接入编辑器 / 终端 / 文件系统 / Git - 自定义 RL 循环编排(非 LangGraph / 非 Provider SDK) - Redis checkpointer 写入 + 14 节点状态图

  2. 量化工程数据(来自 LangChain State of Agent Engineering 调查): - 89% 团队实现了 observability - 仅 52% 团队有 evals - 37-point gap:这是生产质量死亡地带

  3. 新型 Benchmark 明确列出: - Context-Bench(memory management) - Recovery-Bench(error recovery) - Terminal-Bench(coding agents)

  4. 三层 Eval 架构(生产级): - 每次 PR 的快速检查(调用的工具对不对?) - 夜间回归套件(LLM-as-judge 评判输出质量) - 持续生产监控(漂移告警)

  5. 两种 Agent 复杂度分型: - 简单:无状态工具调用 → Provider SDK + MCP + Postgres(周末项目) - 复杂:多步骤工作流 → LangGraph + MCP + eval(含人工审批门)

保留理由:Paolo Perrone 是 AI 工程领域高质量 newsletter 作者,内容基于真实工程对话而非表面整理。六层架构 + 量化数据 + eval 体系 + Benchmark 列表满足工程深度要求。保留为核心知识库条目。

与早间简报重叠判断:与 2026-06-14 的 agentic-rag-multimodal-stack-2026 有概念重叠(都提六层架构),但本文有更具体的统计数据(89% vs 52%)和新型 Benchmark(Context/Recovery/Terminal Bench),不重复。


2.2 How to Learn Agentic AI in 2026 · rockybhatia.substack ⭐ 保留

  • 来源https://rockybhatia.substack.com/p/how-to-learn-agentic-ai-in-2026
  • 作者:Rocky Bhatia
  • 发布时间:未知(内容为 2026 版)
  • Substack 标注:✅ AI 工程 Newsletter,符合启用规则

工程内容(保留理由):

  1. 真实生产失败案例(含具体后果)

    "三个星期后,系统意外触发递归重试工作流,一夜之间烧掉数千美元推理费用,同时静默损坏 agent 间共享内存状态。" "agent 因 HTTP 429 误判为临时执行不确定性而非显式限流,导致重试引发更多重试,随后触发补偿工作流,几分钟内生成数万冗余操作。"

  2. 具体工程问题列表(生产工具的 messy reality): - timeout - schema 变更 - partial failure - 不可预测的 rate limit - 返回 malformed responses - 触发 unintended side effects

  3. Agent 失控的洞察

    "局部理性行为仍可造成全局灾难性系统。" "分布式系统工程师多年前学到的,Agent 工程师正在重新学习。"

  4. Memory 系统生产级问题: - 短期 / 长期 / 持久状态 / 向量存储的架构图在白板上好看 - 生产中"丑陋得多"——作者有具体案例

  5. 数学模型Agent = LLM + Retrieval + Memory + Tools + Planning + State + Observability + Constraints + Execution Infrastructure

保留理由:与空洞概念文章不同,本文核心价值是真实生产事故的工程复盘,而非学习路线整理。HTTP 429 误判导致的重试风暴是经典的分布式系统问题在 agent 场景的复现,"局部理性导致全局灾难"是高度可引用的工程洞察。教育向但工程真实。

丢弃风险提示:标题是"学习路线"但实质是生产工程事故案例集,避免按标题误判为入门内容。


2.3 6 Production-Tested Optimization Strategies for High-Performance LLM Inference · bentoml.com ⭐ 保留

  • 来源https://www.bentoml.com/blog/6-production-tested-optimization-strategies-for-high-performance-llm-inference
  • 发布时间:Jun 2026
  • BentoML 背景:开源模型服务平台,有实际生产部署案例

工程内容(保留理由):

  1. Prefill / Decode 两阶段性能分析: - Prefill pass:编码完整 prompt + 构建 KV cache - Decode loop:逐 token 生成,每次读/扩展 KV cache - 序列长度增长 + 并发增加时,per-token decode loop 成为主导瓶颈

  2. 六大优化策略及瓶颈映射: - Continuous batching(吞吐) - Prefill 和 decode 分离优化 - KV cache 管理策略 - 张量并行 - 量化压缩 - 离线批量推理

  3. 具体案例(Neurolabs)

    "Neurolabs 在标准化模型服务流程至 BentoML 后,产品发布加速了 9 个月,避免招聘额外的基础设施工程师。" 量化指标:9 个月产品加速 + 免去 HC 成本

  4. llm-optimizer 工具

    "帮助团队快速识别吞吐和延迟目标的最佳配置组合,无需大量试错。"

  5. 离线批量推理适用场景: - Embeddings / Lead scoring / 夜间分析 / ETL pipeline / 批量文档处理

丢弃风险提示:部分内容为 BentoML 产品推广,但优化策略和案例数据有工程参考价值,与 Spheron benchmark(今日 14:50 条目)配合可形成「Benchmark 选型 + 部署后优化」的闭环。


2.4 SoK: Agentic RAG (arXiv:2603.07379v1) · ACL 2026 ⭐ 研究保留(有条件)

  • 来源https://arxiv.org/html/2603.07379v1
  • 发表:ACL 2026(长论文)
  • Substack 标注:✅ 高质量学术机构,符合启用规则
  • 性质:Systematization of Knowledge(综述性)

工程内容(评估):

维度 内容 评分
分类体系 Agentic RAG 分类法 / 架构模式 / 评估方法
Benchmark 局限性分析 现有评估不能捕捉 multi-step reasoning / tool interaction
设计模式 Chain-of-Thought / ReAct / Decomposition / HITL 等
实现细节 ❌ 无命令 / 无源码 / 无配置文件
性能数据 ❌ 无实测数字

保留理由:作为 Agentic RAG 领域第一篇 SoK(系统化知识),其分类体系和设计模式列表对知识库建设有结构价值。Benchmark 局限性分析("现有方法掩盖关键失败模式")是重要工程洞察。

条件保留理由:无实现细节、无源码链接,需配合有代码的条目(如 awesome-harness-engineering 中的 arXiv:2603.05344)使用。


2.5 Is Agentic RAG worth it? (arXiv:2601.07711) · ACL 2026 Industry Track ⭐ 研究保留(有条件)

  • 来源https://arxiv.org/abs/2601.07711
  • 发表:ACL 2026 Industry Track
  • 性质:实验对比论文

工程内容(评估):

维度 内容 评分
实验设计 Agentic RAG vs 标准 RAG 对比
源码 arXiv 页面显示有 Code/Data associated,但未提供链接 待核实
性能数据 摘要无数字,需读全文 待核实

条件保留理由:ACL 2026 Industry Track 表明工程导向,但摘要信息不足以判断工程深度。需后续跟进源码/GitHub 链接。若有代码仓库,是 RAG 系统选型的直接实验依据。


2.6 LLM Systems Engineering Roadmap · h9-tec (GitHub) ⭐ 保留

  • 来源https://github.com/h9-tec/llm-systems-engineering-roadmap
  • 性质:开源知识库,MIT License
  • 质量判断:专业工程路线图,非简单链接收集

工程内容(保留理由):

  1. 12 层结构(从 LLM 基础到生产架构): 01 LLM Foundations 02 Training Pipeline 03 Post-training 04 Reasoning Models 05 Inference Fundamentals 06 Serving Engines 07 KV Cache & Long Context 08 Quantization & Compression 09 RAG Systems 10 Agentic Systems 11 Evaluation & Benchmarking 12 Production Architecture

  2. 每层要求产出的 5 个 artifact: - 机制解释 - 代码或架构 artifact - Benchmark 或 eval - 失败模式列表 - 决策规则

  3. Agentic Systems 层具体内容: ``` Build a bounded agent: planner / tool registry / schema validation / executor / verifier / retry limit / cost limit / approval gate / trace log

You pass this layer if your agent can fail safely. ```

  1. Production Readiness Checklistauthentication / authorization / tenant isolation / rate limiting / prompt logging policy / PII policy / retrieval permissions / model fallback / eval gate / monitoring / alerts / cost dashboard / security tests / rollback plan / incident response

  2. artifacts 目录: - tiny_transformer / mini_pretraining / kv_cache_calculator - quantization_benchmark / rag_system / agent_workflow - eval_dashboard / production_architecture

保留理由:系统化工程路线图,每层有失败模式 + 决策规则,与 awesome-harness-engineering(今日 14:50 条目)互补。前者侧重 coding agent harness,后者覆盖完整 LLM 系统工程生命周期。


2.7 Building a Modern RAG Agent in 2026: Qwen3 + Qdrant · towardsai.net 🚫 丢弃

  • 来源https://pub.towardsai.net/building-a-modern-rag-pipeline-in-2026-qwen3-embeddings-and-vector-database-in-qdrant-ebeca2bbe338
  • 丢弃理由:技术博客文章,有代码框架但无失败模式、无性能对比、无生产环境问题。Qwen3 embedding + Qdrant 的组合是工程线索,但本文属于 Tutorial 而非 Engineering insights。

2.8 Next-Generation Agentic RAG with LangGraph (2026 Edition) · Medium 🚫 丢弃

  • 来源:`https://medium.com/@vinodkrane/next-generation-agentic-rag-with-langgraph-2026-edition-d1c4c068d2b8>
  • 丢弃理由:Medium 概念文章,LangGraph 架构描述为主,无新 Benchmark、无性能数据、无生产失败案例。比不上一手 Substack 工程师文章。

2.9 AI Engineering Blueprint for On-Premises RAG (arXiv:2604.01395v1) ⚠️ 待核实

  • 来源https://arxiv.org/html/2604.01395v1
  • 性质:企业 RAG 架构蓝图(4+1 视图模型)
  • 工程内容:引用 GitHub 仓库(需核实存在性和内容质量)
  • 保留条件:核实 GitHub 仓库有实际代码、CI/CD 配置、参考应用实现

三、分类标签汇总

标签 条目数 主要来源
agentic-rag rag-eval 3 arXiv SoK, ACL Industry, towardsai
ai-agents-stack layer-6-regulation 1 theaiengineer.substack
agent-failure-modes retry-storm distributed-systems 1 rockybhatia.substack
llm-systems production-architecture eval 1 h9-tec GitHub
inference-optimization continuous-batching prefill-decode 1 bentoml.com
acl-2026 industry-track 2 arXiv:2601.07711, arXiv:2603.07379
substack engineering production 2 theaiengineer, rockybhatia

四、丢弃条目及理由

条目 来源 丢弃理由
Building a Modern RAG Agent (Qwen3+Qdrant) towardsai.net Tutorial 性质,无生产失败案例 / 性能数据
Agentic RAG with LangGraph (2026) Medium 概念描述为主,无新 Benchmark 或代码
10 Essential Books AI Engineer Reading List javarevisited.substack 书单整理,非原始工程内容
ML vs AI Engineer Career nidly.substack 职业分析,无工程命令 / 代码 / 错误

五、建议写入路径

推荐路径/shared/research-kb/inbox/jay/2026-06-23-1950-evening-engineering-filter-agentic-rag-inference-stack-2026.md

是否需要精读 / 审稿 / 主题页更新

条目 优先级 行动
The AI Agents Stack 2026 (theaiengineer) ⭐⭐⭐ 精读:六层架构 + eval gap 数据(89% vs 52%)+ 新 Benchmark 列表
How to Learn Agentic AI (rockybhatia) ⭐⭐ 审稿:生产失败案例可提炼为独立 RAG/Agent 排障案例
BentoML 推理优化 (bentoml.com) ⭐⭐ 精读:Prefill/Decode 分析 + Neurolabs 案例 + llm-optimizer 工具
LLM Systems Engineering Roadmap (GitHub) ⭐⭐⭐ 通读:12 层结构可更新知识库工程路径图
SoK: Agentic RAG (ACL 2026) 审稿:分类体系可补充知识库架构分类
Is Agentic RAG worth it? (ACL 2026 Industry) 待跟进:核实 arXiv 源码链接

主题页更新建议: - Agentic RAG 主题页:整合 SoK 分类 + ACL 2026 Industry Track 实验数据 - AI Agents Stack 主题页:补充 Paolo Perrone 六层 + eval gap 数据 - LLM Systems 工程路径:引入 h9-tec 12 层结构作为知识库索引


Jay · 2026-06-23 19:50 CST · 工程筛选第 9 轮