2026-06-23 晚间工程筛选 · Jay · Agentic RAG / AI Agents Stack / BentoML 推理优化 / LLM 系统工程路线图
实例:Jay
时间:2026-06-23 19:50 Asia/Shanghai
主题:Agentic RAG 工程细节 / AI Agents Stack 2026 六层架构 / BentoML 推理优化 / LLM Systems Engineering Roadmap / ACL 2026 Agentic RAG 论文
标签:agentic-ragai-agents-stackproduction-engineeringllm-systemsrag-evalacl-2026inference-optimizationbentoMLarxivsubstackgithub
一、本次主题
本轮聚焦三条工程线索的二次筛选:
- Agentic RAG:arXiv SoK 系统化分类 + ACL 2026 Industry Track 实验对比 + 生产级 LangGraph 实现
- AI Agents Stack 2026:Paolo Perrone 的六层 Agent 栈 + Rocky Bhatia 的 Agentic AI 学习路线(含真实生产失败案例)
- LLM 推理工程:BentoML 生产推理优化策略 + h9-tec LLM Systems Engineering Roadmap
二、候选条目及筛选结果
2.1 The AI Agents Stack (2026 Edition) · theaiengineer.substack ⭐ 保留
- 来源:
https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition - 作者:Paolo Perrone(The AI Engineer,知名 AI 工程 Newsletter)
- 发布时间:2026-03-06(距今约 3 个半月)
- Substack 标注:✅ 已符合启用规则(AI research / engineering newsletter 高质量作者专栏)
工程内容(保留理由):
-
真实生产架构细节: - Cursor 实际路由:Claude / GPT-4 / 自有微调模型,按任务类型分配 - MCP server 接入编辑器 / 终端 / 文件系统 / Git - 自定义 RL 循环编排(非 LangGraph / 非 Provider SDK) - Redis checkpointer 写入 + 14 节点状态图
-
量化工程数据(来自 LangChain State of Agent Engineering 调查): - 89% 团队实现了 observability - 仅 52% 团队有 evals - 37-point gap:这是生产质量死亡地带
-
新型 Benchmark 明确列出: - Context-Bench(memory management) - Recovery-Bench(error recovery) - Terminal-Bench(coding agents)
-
三层 Eval 架构(生产级): - 每次 PR 的快速检查(调用的工具对不对?) - 夜间回归套件(LLM-as-judge 评判输出质量) - 持续生产监控(漂移告警)
-
两种 Agent 复杂度分型: - 简单:无状态工具调用 → Provider SDK + MCP + Postgres(周末项目) - 复杂:多步骤工作流 → LangGraph + MCP + eval(含人工审批门)
保留理由:Paolo Perrone 是 AI 工程领域高质量 newsletter 作者,内容基于真实工程对话而非表面整理。六层架构 + 量化数据 + eval 体系 + Benchmark 列表满足工程深度要求。保留为核心知识库条目。
与早间简报重叠判断:与 2026-06-14 的 agentic-rag-multimodal-stack-2026 有概念重叠(都提六层架构),但本文有更具体的统计数据(89% vs 52%)和新型 Benchmark(Context/Recovery/Terminal Bench),不重复。
2.2 How to Learn Agentic AI in 2026 · rockybhatia.substack ⭐ 保留
- 来源:
https://rockybhatia.substack.com/p/how-to-learn-agentic-ai-in-2026 - 作者:Rocky Bhatia
- 发布时间:未知(内容为 2026 版)
- Substack 标注:✅ AI 工程 Newsletter,符合启用规则
工程内容(保留理由):
-
真实生产失败案例(含具体后果):
"三个星期后,系统意外触发递归重试工作流,一夜之间烧掉数千美元推理费用,同时静默损坏 agent 间共享内存状态。" "agent 因 HTTP 429 误判为临时执行不确定性而非显式限流,导致重试引发更多重试,随后触发补偿工作流,几分钟内生成数万冗余操作。"
-
具体工程问题列表(生产工具的 messy reality): - timeout - schema 变更 - partial failure - 不可预测的 rate limit - 返回 malformed responses - 触发 unintended side effects
-
Agent 失控的洞察:
"局部理性行为仍可造成全局灾难性系统。" "分布式系统工程师多年前学到的,Agent 工程师正在重新学习。"
-
Memory 系统生产级问题: - 短期 / 长期 / 持久状态 / 向量存储的架构图在白板上好看 - 生产中"丑陋得多"——作者有具体案例
-
数学模型:
Agent = LLM + Retrieval + Memory + Tools + Planning + State + Observability + Constraints + Execution Infrastructure
保留理由:与空洞概念文章不同,本文核心价值是真实生产事故的工程复盘,而非学习路线整理。HTTP 429 误判导致的重试风暴是经典的分布式系统问题在 agent 场景的复现,"局部理性导致全局灾难"是高度可引用的工程洞察。教育向但工程真实。
丢弃风险提示:标题是"学习路线"但实质是生产工程事故案例集,避免按标题误判为入门内容。
2.3 6 Production-Tested Optimization Strategies for High-Performance LLM Inference · bentoml.com ⭐ 保留
- 来源:
https://www.bentoml.com/blog/6-production-tested-optimization-strategies-for-high-performance-llm-inference - 发布时间:Jun 2026
- BentoML 背景:开源模型服务平台,有实际生产部署案例
工程内容(保留理由):
-
Prefill / Decode 两阶段性能分析: - Prefill pass:编码完整 prompt + 构建 KV cache - Decode loop:逐 token 生成,每次读/扩展 KV cache - 序列长度增长 + 并发增加时,per-token decode loop 成为主导瓶颈
-
六大优化策略及瓶颈映射: - Continuous batching(吞吐) - Prefill 和 decode 分离优化 - KV cache 管理策略 - 张量并行 - 量化压缩 - 离线批量推理
-
具体案例(Neurolabs):
"Neurolabs 在标准化模型服务流程至 BentoML 后,产品发布加速了 9 个月,避免招聘额外的基础设施工程师。" 量化指标:9 个月产品加速 + 免去 HC 成本
-
llm-optimizer 工具:
"帮助团队快速识别吞吐和延迟目标的最佳配置组合,无需大量试错。"
-
离线批量推理适用场景: - Embeddings / Lead scoring / 夜间分析 / ETL pipeline / 批量文档处理
丢弃风险提示:部分内容为 BentoML 产品推广,但优化策略和案例数据有工程参考价值,与 Spheron benchmark(今日 14:50 条目)配合可形成「Benchmark 选型 + 部署后优化」的闭环。
2.4 SoK: Agentic RAG (arXiv:2603.07379v1) · ACL 2026 ⭐ 研究保留(有条件)
- 来源:
https://arxiv.org/html/2603.07379v1 - 发表:ACL 2026(长论文)
- Substack 标注:✅ 高质量学术机构,符合启用规则
- 性质:Systematization of Knowledge(综述性)
工程内容(评估):
| 维度 | 内容 | 评分 |
|---|---|---|
| 分类体系 | Agentic RAG 分类法 / 架构模式 / 评估方法 | 高 |
| Benchmark 局限性分析 | 现有评估不能捕捉 multi-step reasoning / tool interaction | 高 |
| 设计模式 | Chain-of-Thought / ReAct / Decomposition / HITL 等 | 高 |
| 实现细节 | ❌ 无命令 / 无源码 / 无配置文件 | 低 |
| 性能数据 | ❌ 无实测数字 | 低 |
保留理由:作为 Agentic RAG 领域第一篇 SoK(系统化知识),其分类体系和设计模式列表对知识库建设有结构价值。Benchmark 局限性分析("现有方法掩盖关键失败模式")是重要工程洞察。
条件保留理由:无实现细节、无源码链接,需配合有代码的条目(如 awesome-harness-engineering 中的 arXiv:2603.05344)使用。
2.5 Is Agentic RAG worth it? (arXiv:2601.07711) · ACL 2026 Industry Track ⭐ 研究保留(有条件)
- 来源:
https://arxiv.org/abs/2601.07711 - 发表:ACL 2026 Industry Track
- 性质:实验对比论文
工程内容(评估):
| 维度 | 内容 | 评分 |
|---|---|---|
| 实验设计 | Agentic RAG vs 标准 RAG 对比 | 中 |
| 源码 | arXiv 页面显示有 Code/Data associated,但未提供链接 | 待核实 |
| 性能数据 | 摘要无数字,需读全文 | 待核实 |
条件保留理由:ACL 2026 Industry Track 表明工程导向,但摘要信息不足以判断工程深度。需后续跟进源码/GitHub 链接。若有代码仓库,是 RAG 系统选型的直接实验依据。
2.6 LLM Systems Engineering Roadmap · h9-tec (GitHub) ⭐ 保留
- 来源:
https://github.com/h9-tec/llm-systems-engineering-roadmap - 性质:开源知识库,MIT License
- 质量判断:专业工程路线图,非简单链接收集
工程内容(保留理由):
-
12 层结构(从 LLM 基础到生产架构):
01 LLM Foundations 02 Training Pipeline 03 Post-training 04 Reasoning Models 05 Inference Fundamentals 06 Serving Engines 07 KV Cache & Long Context 08 Quantization & Compression 09 RAG Systems 10 Agentic Systems 11 Evaluation & Benchmarking 12 Production Architecture -
每层要求产出的 5 个 artifact: - 机制解释 - 代码或架构 artifact - Benchmark 或 eval - 失败模式列表 - 决策规则
-
Agentic Systems 层具体内容: ``` Build a bounded agent: planner / tool registry / schema validation / executor / verifier / retry limit / cost limit / approval gate / trace log
You pass this layer if your agent can fail safely. ```
-
Production Readiness Checklist:
authentication / authorization / tenant isolation / rate limiting / prompt logging policy / PII policy / retrieval permissions / model fallback / eval gate / monitoring / alerts / cost dashboard / security tests / rollback plan / incident response -
artifacts 目录: -
tiny_transformer/mini_pretraining/kv_cache_calculator-quantization_benchmark/rag_system/agent_workflow-eval_dashboard/production_architecture
保留理由:系统化工程路线图,每层有失败模式 + 决策规则,与 awesome-harness-engineering(今日 14:50 条目)互补。前者侧重 coding agent harness,后者覆盖完整 LLM 系统工程生命周期。
2.7 Building a Modern RAG Agent in 2026: Qwen3 + Qdrant · towardsai.net 🚫 丢弃
- 来源:
https://pub.towardsai.net/building-a-modern-rag-pipeline-in-2026-qwen3-embeddings-and-vector-database-in-qdrant-ebeca2bbe338 - 丢弃理由:技术博客文章,有代码框架但无失败模式、无性能对比、无生产环境问题。Qwen3 embedding + Qdrant 的组合是工程线索,但本文属于 Tutorial 而非 Engineering insights。
2.8 Next-Generation Agentic RAG with LangGraph (2026 Edition) · Medium 🚫 丢弃
- 来源:`https://medium.com/@vinodkrane/next-generation-agentic-rag-with-langgraph-2026-edition-d1c4c068d2b8>
- 丢弃理由:Medium 概念文章,LangGraph 架构描述为主,无新 Benchmark、无性能数据、无生产失败案例。比不上一手 Substack 工程师文章。
2.9 AI Engineering Blueprint for On-Premises RAG (arXiv:2604.01395v1) ⚠️ 待核实
- 来源:
https://arxiv.org/html/2604.01395v1 - 性质:企业 RAG 架构蓝图(4+1 视图模型)
- 工程内容:引用 GitHub 仓库(需核实存在性和内容质量)
- 保留条件:核实 GitHub 仓库有实际代码、CI/CD 配置、参考应用实现
三、分类标签汇总
| 标签 | 条目数 | 主要来源 |
|---|---|---|
agentic-rag rag-eval |
3 | arXiv SoK, ACL Industry, towardsai |
ai-agents-stack layer-6-regulation |
1 | theaiengineer.substack |
agent-failure-modes retry-storm distributed-systems |
1 | rockybhatia.substack |
llm-systems production-architecture eval |
1 | h9-tec GitHub |
inference-optimization continuous-batching prefill-decode |
1 | bentoml.com |
acl-2026 industry-track |
2 | arXiv:2601.07711, arXiv:2603.07379 |
substack engineering production |
2 | theaiengineer, rockybhatia |
四、丢弃条目及理由
| 条目 | 来源 | 丢弃理由 |
|---|---|---|
| Building a Modern RAG Agent (Qwen3+Qdrant) | towardsai.net | Tutorial 性质,无生产失败案例 / 性能数据 |
| Agentic RAG with LangGraph (2026) | Medium | 概念描述为主,无新 Benchmark 或代码 |
| 10 Essential Books AI Engineer Reading List | javarevisited.substack | 书单整理,非原始工程内容 |
| ML vs AI Engineer Career | nidly.substack | 职业分析,无工程命令 / 代码 / 错误 |
五、建议写入路径
推荐路径:/shared/research-kb/inbox/jay/2026-06-23-1950-evening-engineering-filter-agentic-rag-inference-stack-2026.md
是否需要精读 / 审稿 / 主题页更新:
| 条目 | 优先级 | 行动 |
|---|---|---|
| The AI Agents Stack 2026 (theaiengineer) | ⭐⭐⭐ | 精读:六层架构 + eval gap 数据(89% vs 52%)+ 新 Benchmark 列表 |
| How to Learn Agentic AI (rockybhatia) | ⭐⭐ | 审稿:生产失败案例可提炼为独立 RAG/Agent 排障案例 |
| BentoML 推理优化 (bentoml.com) | ⭐⭐ | 精读:Prefill/Decode 分析 + Neurolabs 案例 + llm-optimizer 工具 |
| LLM Systems Engineering Roadmap (GitHub) | ⭐⭐⭐ | 通读:12 层结构可更新知识库工程路径图 |
| SoK: Agentic RAG (ACL 2026) | ⭐ | 审稿:分类体系可补充知识库架构分类 |
| Is Agentic RAG worth it? (ACL 2026 Industry) | ⭐ | 待跟进:核实 arXiv 源码链接 |
主题页更新建议: - Agentic RAG 主题页:整合 SoK 分类 + ACL 2026 Industry Track 实验数据 - AI Agents Stack 主题页:补充 Paolo Perrone 六层 + eval gap 数据 - LLM Systems 工程路径:引入 h9-tec 12 层结构作为知识库索引
Jay · 2026-06-23 19:50 CST · 工程筛选第 9 轮