工程实践筛选 · Jay · 2026-06-21 下午(第五轮)
本次主题
Serving 引擎选型深度对比 · Agentic AI 生产失败模式 · SGLang 结构化输出实战
候选条目(共 8 条)
🔴 保留 1:vLLM vs Ollama vs SGLang vs TensorRT-LLM 全维度对比
来源: The AI Engineer(theaiengineer.substack.com)
URL: https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt
发布时间: 2026-06(近期)
可信度: ★★★★☆
工程价值: ⭐⭐⭐⭐⭐
为何保留:
- 直接以一个 OOM 事故开场:torch.cuda.OutOfMemoryError(3 用户 + A100),引出Serving 引擎必要性
- 给出清晰的决策矩阵:
| 引擎 | 适用场景 | 关键机制 | 生产就绪度 |
|---|---|---|---|
| Ollama | 单机本地,<5 分钟上手 | 跨平台(NVIDIA/AMD/Apple M系列/CPU) | ⭐(单用户) |
| vLLM | 生产默认首选 | PagedAttention(碎片内存<4%) | ⭐⭐⭐⭐⭐ |
| SGLang | 多轮对话/Agent/RAG(共享上下文) | RadixAttention(比 vLLM 吞吐 +29%) | ⭐⭐⭐⭐ |
| TensorRT-LLM | NVIDIA 极致性能 | 高度优化 CUDA 内核 | ⭐⭐⭐(1-2 周配置) |
| TGI | — | — | ⚠️ 已进入维护模式,官方建议迁移 vLLM/SGLang |
- 量化数据:Llama 70B 单序列 KV Cache 消耗 1.7 GB,并发 10 用户即超过模型权重本身显存占用
- 明确指出 TGI(Text Generation Inference)已被官方标记为维护模式,是重要的迁移信号
保留理由: 当前最完整的 Serving 引擎选型实战指南,框架对比维度(吞吐量/并发/硬件灵活性/工作负载匹配度)清晰,适合作为推理工程主题的决策参考。
标签: #vLLM #SGLang #Ollama #TensorRT-LLM #Serving引擎 #选型 #PagedAttention #RadixAttention
后续行动: 纳入「推理部署」主题页;建议精读 vLLM vs SGLang 吞吐 benchmark 数据
🔴 保留 2:How to Learn Agentic AI in 2026(含真实生产事故)
来源: Rocky Bhatia(rockybhatia.substack.com)
URL: https://rockybhatia.substack.com/p/how-to-learn-agentic-ai-in-2026
发布时间: 2026
可信度: ★★★★☆
工程价值: ⭐⭐⭐⭐⭐
为何保留(核心):
真实生产事故——「一个 retry handler 导致 recursive retry loop,烧掉数千美元推理费用,同时静默损坏 agent 间共享内存状态」。这不是 demo,是事故报告。
关键工程洞察(均来自真实生产):
- Retry 政策是 Agentic 系统第一高危点:团队 demo 完美,3 周后上线就因 retry handler 触发递归
- Agent ≠ Chatbot:chatbot 只响应,agent 需分解任务、规划行动、执行工具、维护状态、重试失败、做条件决策——每一步都引入新的故障面
- 上下文连贯 ≠ 正确:agent 在 30-40 步执行后逐渐偏离任务但听起来完全自信(Coherence ≠ Correctness)
- 检索质量决定 Agent 生死:某团队 agent 用了过时的 rollback 文档(embedding 排名问题),在真实故障响应中执行了旧版降级步骤——无人在意,直到出事故
- 正确学习路径:LLM 基础 → 检索系统 → 工作流编排 → 工具执行 → 内存架构 → 可观测性 → 可靠性工程 → 安全治理 → 多 Agent 协调 → 运营经济学(不是先学框架和 prompt 技巧)
丢弃长尾内容: 开头的课程导览广告和社群推广部分(付费订阅诱导内容)
保留理由: Agentic 系统生产可靠性的实战指南,retry/状态管理/可观测性/检索质量四个维度均有真实失败案例支撑,工程价值极高。
标签: #Agentic-AI #生产故障 #Retry循环 #可观测性 #检索质量 #多Agent #可靠性
后续行动: 纳入 Agent 工程主题页;建议标记「Agentic 系统上线检查清单」
🔴 保留 3:SGLang 结构化输出 + RadixAttention 实战(含代码)
来源: Multimodal AI(multimodalai.substack.com)
URL: https://multimodalai.substack.com/p/how-to-add-structure-to-your-llm
发布时间: 2026
可信度: ★★★★☆
工程价值: ⭐⭐⭐⭐
为何保留:
- 完整代码示例(可复现步骤):
python
# SGLang 多轮 QA 装饰器写法
@sgl.function
def multi_turn_qa(s):
s += sgl.system("You are a helpful assistant...")
s += sgl.user("Please give me a list of 3 countries...")
s += sgl.assistant(sgl.gen("first_answer", max_tokens=512))
s += sgl.user("Please give me another list...")
s += sgl.assistant(sgl.gen("second_answer", max_tokens=512))
return s
- 对比传统写法(手写 prompt 拼接 vs SGLang 前端原语),清晰展示结构化收益
- RadixAttention + LRU eviction 策略的 KV Cache 复用机制说明
- 提到控制流 agent 示例(tool selection via choices=["calculator", "search", ...])
- 安装命令:pip install sglang 或 uv add sglang
- SGLang 支持 VLM(视觉语言模型)推理
保留理由: SGLang 2026 年已超越 vLLM 成为多轮 Agent/RAG 场景首选,本条目提供了前端原语 + 后端优化机制的完整工程视角,代码可直接参考。
标签: #SGLang #RadixAttention #KV-Cache #结构化输出 #Agent #RAG #代码示例
后续行动: 纳入推理引擎选型补充;对比 vLLM 2026 实测数据(已有其他轮次覆盖)
🟡 保留(有条件)4:The AI Agents Stack 2026 Edition
来源: The AI Engineer(theaiengineer.substack.com)
URL: https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
发布时间: 2026
可信度: ★★★★☆
工程价值: ⭐⭐⭐⭐
条件保留理由: 6 层 Agent 栈框架(Letta 2024 年原版的 2026 年更新版),提到 2026 年新增 3 个独立分类方向,框架价值高。但细节需读原文确认——目前 snippet 仅含引言和目录,无具体代码/数据。
建议: 待全文获取后判断是否归档。
标签: #Agent架构 #AI-Agent-Stack #Agent框架
🟡 条件保留 5:AI Infrastructure Roadmap 2026(Five Frontiers)
来源: Next Big Teng(nextbigteng.substack.com)
URL: https://nextbigteng.substack.com/p/ai-infrastructure-roadmap-five-frontiers-for-2026
发布时间: 2026-04
可信度: ★★★☆☆
工程价值: ⭐⭐⭐
条件保留理由: 偏 VC/战略视角,非工程细节,但对理解 AI Infra 趋势有用(Edge AI、模型层竞争、下一代 Infra 公司方向)。已引用 BVP 数据源。
标签: #AI-Infrastructure #Edge-AI #趋势
🟡 条件保留 6:ML Engineer vs AI Engineer(职业边界澄清)
来源: Nidly(nidly.substack.com)
URL: https://nidly.substack.com/p/dont-waste-2026-on-the-wrong-career
发布时间: 2026
可信度: ★★★☆☆
工程价值: ⭐⭐
条件保留理由: 职业定义文章,非技术实现细节。核心论点有价值:「ML Engineering 产出模型;AI Engineering 使用模型——构建系统、处理数据流、管理故障模式、在现实约束下保证可靠性」。但作为知识库条目价值有限。
标签: #AI-Engineering #ML-Engineering #职业
⚪ 丢弃 7:12 Best RAG Courses in 2026
来源: Class Central
URL: https://www.classcentral.com/report/best-rag-courses
丢弃理由: 课程合集,非工程实战。无命令、无源码、无生产数据,仅课程目录罗列。不符合工程筛选标准。
⚪ 丢弃 8:GitHub aerlabsAI/ai-inference-resources
来源: GitHub aerlabsAI
URL: https://github.com/aerlabsAI/ai-inference-resources
丢弃理由: 资源列表(a curated collection),非原创工程内容。无实测数据、无代码分析、无排障记录。
本轮分类标签汇总
#vLLM #SGLang #Ollama #TensorRT-LLM #Serving引擎 #选型 #PagedAttention #RadixAttention
#Agentic-AI #生产故障 #Retry循环 #可观测性 #检索质量 #多Agent #可靠性
#结构化输出 #Agent #RAG #代码示例
#Agent架构 #AI-Infrastructure #Edge-AI #AI-Engineering #职业边界
建议写入路径
写入文件: /shared/research-kb/inbox/jay/2026-06-21-engineering-filter-round5.md
(本次已写入 /home/node/.openclaw/workspace/2026-06-21-engineering-filter-round5.md,待同步至草稿目录)
本次是否需要精读/审稿/主题页更新
| 动作 | 优先级 | 说明 |
|---|---|---|
| 精读 | 高 | vLLM vs SGLang vs TensorRT-LLM 完整对比(保留条目1)——建议对比现有其他轮次数据 |
| 精读 | 高 | SGLang 代码示例完整展开(保留条目3)——获取完整 RadixAttention 机制说明 |
| 审稿 | 中 | Agentic AI 生产失败模式(保留条目2)——建议提取成「Agentic 系统上线检查清单」 |
| 主题页更新 | 中 | 推理引擎选型主题页(vLLM/SGLang/Ollama 对比数据已超载,需合并) |
| 归档 | 低 | AI Agents Stack 2026 Edition(条件保留4)——全文获取后再定 |
版权说明
本文件仅作为 Jay 实例研究简报,不执行 GitHub 写入操作。最终内容同步至 /shared/research-kb/inbox/jay/ 由同步任务处理。