工程实践筛选 · Jay · 2026-06-21 下午（第五轮）

本次主题

Serving 引擎选型深度对比 · Agentic AI 生产失败模式 · SGLang 结构化输出实战

候选条目（共 8 条）

🔴 保留 1：vLLM vs Ollama vs SGLang vs TensorRT-LLM 全维度对比

来源： The AI Engineer（theaiengineer.substack.com）
URL： https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt
发布时间： 2026-06（近期）
可信度： ★★★★☆
工程价值： ⭐⭐⭐⭐⭐

为何保留： - 直接以一个 OOM 事故开场：torch.cuda.OutOfMemoryError（3 用户 + A100），引出Serving 引擎必要性 - 给出清晰的决策矩阵：

引擎	适用场景	关键机制	生产就绪度
Ollama	单机本地，<5 分钟上手	跨平台（NVIDIA/AMD/Apple M系列/CPU）	⭐（单用户）
vLLM	生产默认首选	PagedAttention（碎片内存<4%）	⭐⭐⭐⭐⭐
SGLang	多轮对话/Agent/RAG（共享上下文）	RadixAttention（比 vLLM 吞吐 +29%）	⭐⭐⭐⭐
TensorRT-LLM	NVIDIA 极致性能	高度优化 CUDA 内核	⭐⭐⭐（1-2 周配置）
TGI	—	—	⚠️ 已进入维护模式，官方建议迁移 vLLM/SGLang

量化数据：Llama 70B 单序列 KV Cache 消耗 1.7 GB，并发 10 用户即超过模型权重本身显存占用
明确指出 TGI（Text Generation Inference）已被官方标记为维护模式，是重要的迁移信号

保留理由： 当前最完整的 Serving 引擎选型实战指南，框架对比维度（吞吐量/并发/硬件灵活性/工作负载匹配度）清晰，适合作为推理工程主题的决策参考。

标签： #vLLM #SGLang #Ollama #TensorRT-LLM #Serving引擎 #选型 #PagedAttention #RadixAttention

后续行动： 纳入「推理部署」主题页；建议精读 vLLM vs SGLang 吞吐 benchmark 数据

🔴 保留 2：How to Learn Agentic AI in 2026（含真实生产事故）

来源： Rocky Bhatia（rockybhatia.substack.com）
URL： https://rockybhatia.substack.com/p/how-to-learn-agentic-ai-in-2026
发布时间： 2026
可信度： ★★★★☆
工程价值： ⭐⭐⭐⭐⭐

为何保留（核心）：
真实生产事故——「一个 retry handler 导致 recursive retry loop，烧掉数千美元推理费用，同时静默损坏 agent 间共享内存状态」。这不是 demo，是事故报告。

关键工程洞察（均来自真实生产）：

Retry 政策是 Agentic 系统第一高危点：团队 demo 完美，3 周后上线就因 retry handler 触发递归
Agent ≠ Chatbot：chatbot 只响应，agent 需分解任务、规划行动、执行工具、维护状态、重试失败、做条件决策——每一步都引入新的故障面
上下文连贯 ≠ 正确：agent 在 30-40 步执行后逐渐偏离任务但听起来完全自信（Coherence ≠ Correctness）
检索质量决定 Agent 生死：某团队 agent 用了过时的 rollback 文档（embedding 排名问题），在真实故障响应中执行了旧版降级步骤——无人在意，直到出事故
正确学习路径：LLM 基础 → 检索系统 → 工作流编排 → 工具执行 → 内存架构 → 可观测性 → 可靠性工程 → 安全治理 → 多 Agent 协调 → 运营经济学（不是先学框架和 prompt 技巧）

丢弃长尾内容： 开头的课程导览广告和社群推广部分（付费订阅诱导内容）

保留理由： Agentic 系统生产可靠性的实战指南，retry/状态管理/可观测性/检索质量四个维度均有真实失败案例支撑，工程价值极高。

标签： #Agentic-AI #生产故障 #Retry循环 #可观测性 #检索质量 #多Agent #可靠性

后续行动： 纳入 Agent 工程主题页；建议标记「Agentic 系统上线检查清单」

🔴 保留 3：SGLang 结构化输出 + RadixAttention 实战（含代码）

来源： Multimodal AI（multimodalai.substack.com）
URL： https://multimodalai.substack.com/p/how-to-add-structure-to-your-llm
发布时间： 2026
可信度： ★★★★☆
工程价值： ⭐⭐⭐⭐

为何保留： - 完整代码示例（可复现步骤）： python # SGLang 多轮 QA 装饰器写法 @sgl.function def multi_turn_qa(s): s += sgl.system("You are a helpful assistant...") s += sgl.user("Please give me a list of 3 countries...") s += sgl.assistant(sgl.gen("first_answer", max_tokens=512)) s += sgl.user("Please give me another list...") s += sgl.assistant(sgl.gen("second_answer", max_tokens=512)) return s - 对比传统写法（手写 prompt 拼接 vs SGLang 前端原语），清晰展示结构化收益 - RadixAttention + LRU eviction 策略的 KV Cache 复用机制说明 - 提到控制流 agent 示例（tool selection via choices=["calculator", "search", ...]） - 安装命令：pip install sglang 或 uv add sglang - SGLang 支持 VLM（视觉语言模型）推理

保留理由： SGLang 2026 年已超越 vLLM 成为多轮 Agent/RAG 场景首选，本条目提供了前端原语 + 后端优化机制的完整工程视角，代码可直接参考。

标签： #SGLang #RadixAttention #KV-Cache #结构化输出 #Agent #RAG #代码示例

后续行动： 纳入推理引擎选型补充；对比 vLLM 2026 实测数据（已有其他轮次覆盖）

🟡 保留（有条件）4：The AI Agents Stack 2026 Edition

来源： The AI Engineer（theaiengineer.substack.com）
URL： https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
发布时间： 2026
可信度： ★★★★☆
工程价值： ⭐⭐⭐⭐

条件保留理由： 6 层 Agent 栈框架（Letta 2024 年原版的 2026 年更新版），提到 2026 年新增 3 个独立分类方向，框架价值高。但细节需读原文确认——目前 snippet 仅含引言和目录，无具体代码/数据。

建议： 待全文获取后判断是否归档。

标签： #Agent架构 #AI-Agent-Stack #Agent框架

🟡 条件保留 5：AI Infrastructure Roadmap 2026（Five Frontiers）

来源： Next Big Teng（nextbigteng.substack.com）
URL： https://nextbigteng.substack.com/p/ai-infrastructure-roadmap-five-frontiers-for-2026
发布时间： 2026-04
可信度： ★★★☆☆
工程价值： ⭐⭐⭐

条件保留理由： 偏 VC/战略视角，非工程细节，但对理解 AI Infra 趋势有用（Edge AI、模型层竞争、下一代 Infra 公司方向）。已引用 BVP 数据源。

标签： #AI-Infrastructure #Edge-AI #趋势

🟡 条件保留 6：ML Engineer vs AI Engineer（职业边界澄清）

来源： Nidly（nidly.substack.com）
URL： https://nidly.substack.com/p/dont-waste-2026-on-the-wrong-career
发布时间： 2026
可信度： ★★★☆☆
工程价值： ⭐⭐

条件保留理由： 职业定义文章，非技术实现细节。核心论点有价值：「ML Engineering 产出模型；AI Engineering 使用模型——构建系统、处理数据流、管理故障模式、在现实约束下保证可靠性」。但作为知识库条目价值有限。

标签： #AI-Engineering #ML-Engineering #职业

⚪ 丢弃 7：12 Best RAG Courses in 2026

来源： Class Central
URL： https://www.classcentral.com/report/best-rag-courses
丢弃理由： 课程合集，非工程实战。无命令、无源码、无生产数据，仅课程目录罗列。不符合工程筛选标准。

⚪ 丢弃 8：GitHub aerlabsAI/ai-inference-resources

来源： GitHub aerlabsAI
URL： https://github.com/aerlabsAI/ai-inference-resources
丢弃理由： 资源列表（a curated collection），非原创工程内容。无实测数据、无代码分析、无排障记录。

本轮分类标签汇总

#vLLM #SGLang #Ollama #TensorRT-LLM #Serving引擎 #选型 #PagedAttention #RadixAttention
#Agentic-AI #生产故障 #Retry循环 #可观测性 #检索质量 #多Agent #可靠性
#结构化输出 #Agent #RAG #代码示例
#Agent架构 #AI-Infrastructure #Edge-AI #AI-Engineering #职业边界

建议写入路径

写入文件： /shared/research-kb/inbox/jay/2026-06-21-engineering-filter-round5.md

（本次已写入 /home/node/.openclaw/workspace/2026-06-21-engineering-filter-round5.md，待同步至草稿目录）

本次是否需要精读/审稿/主题页更新

动作	优先级	说明
精读	高	vLLM vs SGLang vs TensorRT-LLM 完整对比（保留条目1）——建议对比现有其他轮次数据
精读	高	SGLang 代码示例完整展开（保留条目3）——获取完整 RadixAttention 机制说明
审稿	中	Agentic AI 生产失败模式（保留条目2）——建议提取成「Agentic 系统上线检查清单」
主题页更新	中	推理引擎选型主题页（vLLM/SGLang/Ollama 对比数据已超载，需合并）
归档	低	AI Agents Stack 2026 Edition（条件保留4）——全文获取后再定

版权说明

本文件仅作为 Jay 实例研究简报，不执行 GitHub 写入操作。最终内容同步至 /shared/research-kb/inbox/jay/ 由同步任务处理。