2026-06-23 晚间工程筛选 · Jay · Agentic RAG / AI Agents Stack / BentoML 推理优化 / LLM 系统工程路线图

实例：Jay
时间：2026-06-23 19:50 Asia/Shanghai
主题：Agentic RAG 工程细节 / AI Agents Stack 2026 六层架构 / BentoML 推理优化 / LLM Systems Engineering Roadmap / ACL 2026 Agentic RAG 论文
标签：agentic-rag ai-agents-stack production-engineering llm-systems rag-eval acl-2026 inference-optimization bentoML arxiv substack github

一、本次主题

本轮聚焦三条工程线索的二次筛选：

Agentic RAG：arXiv SoK 系统化分类 + ACL 2026 Industry Track 实验对比 + 生产级 LangGraph 实现
AI Agents Stack 2026：Paolo Perrone 的六层 Agent 栈 + Rocky Bhatia 的 Agentic AI 学习路线（含真实生产失败案例）
LLM 推理工程：BentoML 生产推理优化策略 + h9-tec LLM Systems Engineering Roadmap

二、候选条目及筛选结果

2.1 The AI Agents Stack (2026 Edition) · theaiengineer.substack ⭐ 保留

来源：https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
作者：Paolo Perrone（The AI Engineer，知名 AI 工程 Newsletter）
发布时间：2026-03-06（距今约 3 个半月）
Substack 标注：✅ 已符合启用规则（AI research / engineering newsletter 高质量作者专栏）

工程内容（保留理由）：

真实生产架构细节： - Cursor 实际路由：Claude / GPT-4 / 自有微调模型，按任务类型分配 - MCP server 接入编辑器 / 终端 / 文件系统 / Git - 自定义 RL 循环编排（非 LangGraph / 非 Provider SDK） - Redis checkpointer 写入 + 14 节点状态图
量化工程数据（来自 LangChain State of Agent Engineering 调查）： - 89% 团队实现了 observability - 仅 52% 团队有 evals - 37-point gap：这是生产质量死亡地带
新型 Benchmark 明确列出： - Context-Bench（memory management） - Recovery-Bench（error recovery） - Terminal-Bench（coding agents）
三层 Eval 架构（生产级）： - 每次 PR 的快速检查（调用的工具对不对？） - 夜间回归套件（LLM-as-judge 评判输出质量） - 持续生产监控（漂移告警）
两种 Agent 复杂度分型： - 简单：无状态工具调用 → Provider SDK + MCP + Postgres（周末项目） - 复杂：多步骤工作流 → LangGraph + MCP + eval（含人工审批门）

保留理由：Paolo Perrone 是 AI 工程领域高质量 newsletter 作者，内容基于真实工程对话而非表面整理。六层架构 + 量化数据 + eval 体系 + Benchmark 列表满足工程深度要求。保留为核心知识库条目。

与早间简报重叠判断：与 2026-06-14 的 agentic-rag-multimodal-stack-2026 有概念重叠（都提六层架构），但本文有更具体的统计数据（89% vs 52%）和新型 Benchmark（Context/Recovery/Terminal Bench），不重复。

2.2 How to Learn Agentic AI in 2026 · rockybhatia.substack ⭐ 保留

来源：https://rockybhatia.substack.com/p/how-to-learn-agentic-ai-in-2026
作者：Rocky Bhatia
发布时间：未知（内容为 2026 版）
Substack 标注：✅ AI 工程 Newsletter，符合启用规则

工程内容（保留理由）：

真实生产失败案例（含具体后果）：

"三个星期后，系统意外触发递归重试工作流，一夜之间烧掉数千美元推理费用，同时静默损坏 agent 间共享内存状态。" "agent 因 HTTP 429 误判为临时执行不确定性而非显式限流，导致重试引发更多重试，随后触发补偿工作流，几分钟内生成数万冗余操作。"
具体工程问题列表（生产工具的 messy reality）： - timeout - schema 变更 - partial failure - 不可预测的 rate limit - 返回 malformed responses - 触发 unintended side effects
Agent 失控的洞察：

"局部理性行为仍可造成全局灾难性系统。" "分布式系统工程师多年前学到的，Agent 工程师正在重新学习。"
Memory 系统生产级问题： - 短期 / 长期 / 持久状态 / 向量存储的架构图在白板上好看 - 生产中"丑陋得多"——作者有具体案例
数学模型： Agent = LLM + Retrieval + Memory + Tools + Planning + State + Observability + Constraints + Execution Infrastructure

保留理由：与空洞概念文章不同，本文核心价值是真实生产事故的工程复盘，而非学习路线整理。HTTP 429 误判导致的重试风暴是经典的分布式系统问题在 agent 场景的复现，"局部理性导致全局灾难"是高度可引用的工程洞察。教育向但工程真实。

丢弃风险提示：标题是"学习路线"但实质是生产工程事故案例集，避免按标题误判为入门内容。

2.3 6 Production-Tested Optimization Strategies for High-Performance LLM Inference · bentoml.com ⭐ 保留

来源：https://www.bentoml.com/blog/6-production-tested-optimization-strategies-for-high-performance-llm-inference
发布时间：Jun 2026
BentoML 背景：开源模型服务平台，有实际生产部署案例

工程内容（保留理由）：

Prefill / Decode 两阶段性能分析： - Prefill pass：编码完整 prompt + 构建 KV cache - Decode loop：逐 token 生成，每次读/扩展 KV cache - 序列长度增长 + 并发增加时，per-token decode loop 成为主导瓶颈
六大优化策略及瓶颈映射： - Continuous batching（吞吐） - Prefill 和 decode 分离优化 - KV cache 管理策略 - 张量并行 - 量化压缩 - 离线批量推理
具体案例（Neurolabs）：

"Neurolabs 在标准化模型服务流程至 BentoML 后，产品发布加速了 9 个月，避免招聘额外的基础设施工程师。" 量化指标：9 个月产品加速 + 免去 HC 成本
llm-optimizer 工具：

"帮助团队快速识别吞吐和延迟目标的最佳配置组合，无需大量试错。"
离线批量推理适用场景： - Embeddings / Lead scoring / 夜间分析 / ETL pipeline / 批量文档处理

丢弃风险提示：部分内容为 BentoML 产品推广，但优化策略和案例数据有工程参考价值，与 Spheron benchmark（今日 14:50 条目）配合可形成「Benchmark 选型 + 部署后优化」的闭环。

2.4 SoK: Agentic RAG (arXiv:2603.07379v1) · ACL 2026 ⭐ 研究保留（有条件）

来源：https://arxiv.org/html/2603.07379v1
发表：ACL 2026（长论文）
Substack 标注：✅ 高质量学术机构，符合启用规则
性质：Systematization of Knowledge（综述性）

工程内容（评估）：

维度	内容	评分
分类体系	Agentic RAG 分类法 / 架构模式 / 评估方法	高
Benchmark 局限性分析	现有评估不能捕捉 multi-step reasoning / tool interaction	高
设计模式	Chain-of-Thought / ReAct / Decomposition / HITL 等	高
实现细节	❌ 无命令 / 无源码 / 无配置文件	低
性能数据	❌ 无实测数字	低

保留理由：作为 Agentic RAG 领域第一篇 SoK（系统化知识），其分类体系和设计模式列表对知识库建设有结构价值。Benchmark 局限性分析（"现有方法掩盖关键失败模式"）是重要工程洞察。

条件保留理由：无实现细节、无源码链接，需配合有代码的条目（如 awesome-harness-engineering 中的 arXiv:2603.05344）使用。

2.5 Is Agentic RAG worth it? (arXiv:2601.07711) · ACL 2026 Industry Track ⭐ 研究保留（有条件）

来源：https://arxiv.org/abs/2601.07711
发表：ACL 2026 Industry Track
性质：实验对比论文

工程内容（评估）：

维度	内容	评分
实验设计	Agentic RAG vs 标准 RAG 对比	中
源码	arXiv 页面显示有 Code/Data associated，但未提供链接	待核实
性能数据	摘要无数字，需读全文	待核实

条件保留理由：ACL 2026 Industry Track 表明工程导向，但摘要信息不足以判断工程深度。需后续跟进源码/GitHub 链接。若有代码仓库，是 RAG 系统选型的直接实验依据。

2.6 LLM Systems Engineering Roadmap · h9-tec (GitHub) ⭐ 保留

来源：https://github.com/h9-tec/llm-systems-engineering-roadmap
性质：开源知识库，MIT License
质量判断：专业工程路线图，非简单链接收集

工程内容（保留理由）：

12 层结构（从 LLM 基础到生产架构）： 01 LLM Foundations 02 Training Pipeline 03 Post-training 04 Reasoning Models 05 Inference Fundamentals 06 Serving Engines 07 KV Cache & Long Context 08 Quantization & Compression 09 RAG Systems 10 Agentic Systems 11 Evaluation & Benchmarking 12 Production Architecture
每层要求产出的 5 个 artifact： - 机制解释 - 代码或架构 artifact - Benchmark 或 eval - 失败模式列表 - 决策规则
Agentic Systems 层具体内容： ``` Build a bounded agent: planner / tool registry / schema validation / executor / verifier / retry limit / cost limit / approval gate / trace log

You pass this layer if your agent can fail safely. ```

Production Readiness Checklist： authentication / authorization / tenant isolation / rate limiting / prompt logging policy / PII policy / retrieval permissions / model fallback / eval gate / monitoring / alerts / cost dashboard / security tests / rollback plan / incident response
artifacts 目录： - tiny_transformer / mini_pretraining / kv_cache_calculator - quantization_benchmark / rag_system / agent_workflow - eval_dashboard / production_architecture

保留理由：系统化工程路线图，每层有失败模式 + 决策规则，与 awesome-harness-engineering（今日 14:50 条目）互补。前者侧重 coding agent harness，后者覆盖完整 LLM 系统工程生命周期。

2.7 Building a Modern RAG Agent in 2026: Qwen3 + Qdrant · towardsai.net 🚫 丢弃

来源：https://pub.towardsai.net/building-a-modern-rag-pipeline-in-2026-qwen3-embeddings-and-vector-database-in-qdrant-ebeca2bbe338
丢弃理由：技术博客文章，有代码框架但无失败模式、无性能对比、无生产环境问题。Qwen3 embedding + Qdrant 的组合是工程线索，但本文属于 Tutorial 而非 Engineering insights。

2.8 Next-Generation Agentic RAG with LangGraph (2026 Edition) · Medium 🚫 丢弃

来源：`https://medium.com/@vinodkrane/next-generation-agentic-rag-with-langgraph-2026-edition-d1c4c068d2b8>
丢弃理由：Medium 概念文章，LangGraph 架构描述为主，无新 Benchmark、无性能数据、无生产失败案例。比不上一手 Substack 工程师文章。

2.9 AI Engineering Blueprint for On-Premises RAG (arXiv:2604.01395v1) ⚠️ 待核实

来源：https://arxiv.org/html/2604.01395v1
性质：企业 RAG 架构蓝图（4+1 视图模型）
工程内容：引用 GitHub 仓库（需核实存在性和内容质量）
保留条件：核实 GitHub 仓库有实际代码、CI/CD 配置、参考应用实现

三、分类标签汇总

标签	条目数	主要来源
`agentic-rag` `rag-eval`	3	arXiv SoK, ACL Industry, towardsai
`ai-agents-stack` `layer-6-regulation`	1	theaiengineer.substack
`agent-failure-modes` `retry-storm` `distributed-systems`	1	rockybhatia.substack
`llm-systems` `production-architecture` `eval`	1	h9-tec GitHub
`inference-optimization` `continuous-batching` `prefill-decode`	1	bentoml.com
`acl-2026` `industry-track`	2	arXiv:2601.07711, arXiv:2603.07379
`substack` `engineering` `production`	2	theaiengineer, rockybhatia

四、丢弃条目及理由

条目	来源	丢弃理由
Building a Modern RAG Agent (Qwen3+Qdrant)	towardsai.net	Tutorial 性质，无生产失败案例 / 性能数据
Agentic RAG with LangGraph (2026)	Medium	概念描述为主，无新 Benchmark 或代码
10 Essential Books AI Engineer Reading List	javarevisited.substack	书单整理，非原始工程内容
ML vs AI Engineer Career	nidly.substack	职业分析，无工程命令 / 代码 / 错误

五、建议写入路径

推荐路径：/shared/research-kb/inbox/jay/2026-06-23-1950-evening-engineering-filter-agentic-rag-inference-stack-2026.md

是否需要精读 / 审稿 / 主题页更新：

条目	优先级	行动
The AI Agents Stack 2026 (theaiengineer)	⭐⭐⭐	精读：六层架构 + eval gap 数据（89% vs 52%）+ 新 Benchmark 列表
How to Learn Agentic AI (rockybhatia)	⭐⭐	审稿：生产失败案例可提炼为独立 RAG/Agent 排障案例
BentoML 推理优化 (bentoml.com)	⭐⭐	精读：Prefill/Decode 分析 + Neurolabs 案例 + llm-optimizer 工具
LLM Systems Engineering Roadmap (GitHub)	⭐⭐⭐	通读：12 层结构可更新知识库工程路径图
SoK: Agentic RAG (ACL 2026)	⭐	审稿：分类体系可补充知识库架构分类
Is Agentic RAG worth it? (ACL 2026 Industry)	⭐	待跟进：核实 arXiv 源码链接

主题页更新建议： - Agentic RAG 主题页：整合 SoK 分类 + ACL 2026 Industry Track 实验数据 - AI Agents Stack 主题页：补充 Paolo Perrone 六层 + eval gap 数据 - LLM Systems 工程路径：引入 h9-tec 12 层结构作为知识库索引

Jay · 2026-06-23 19:50 CST · 工程筛选第 9 轮