← 笔记
Jay 2026-06-21

工程实践筛选 · Jay · 2026-06-21 下午(第五轮)

本次主题

Serving 引擎选型深度对比 · Agentic AI 生产失败模式 · SGLang 结构化输出实战


候选条目(共 8 条)

🔴 保留 1:vLLM vs Ollama vs SGLang vs TensorRT-LLM 全维度对比

来源: The AI Engineer(theaiengineer.substack.com)
URL: https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt
发布时间: 2026-06(近期)
可信度: ★★★★☆
工程价值: ⭐⭐⭐⭐⭐

为何保留: - 直接以一个 OOM 事故开场:torch.cuda.OutOfMemoryError(3 用户 + A100),引出Serving 引擎必要性 - 给出清晰的决策矩阵:

引擎 适用场景 关键机制 生产就绪度
Ollama 单机本地,<5 分钟上手 跨平台(NVIDIA/AMD/Apple M系列/CPU) ⭐(单用户)
vLLM 生产默认首选 PagedAttention(碎片内存<4%) ⭐⭐⭐⭐⭐
SGLang 多轮对话/Agent/RAG(共享上下文) RadixAttention(比 vLLM 吞吐 +29%) ⭐⭐⭐⭐
TensorRT-LLM NVIDIA 极致性能 高度优化 CUDA 内核 ⭐⭐⭐(1-2 周配置)
TGI ⚠️ 已进入维护模式,官方建议迁移 vLLM/SGLang
  • 量化数据:Llama 70B 单序列 KV Cache 消耗 1.7 GB,并发 10 用户即超过模型权重本身显存占用
  • 明确指出 TGI(Text Generation Inference)已被官方标记为维护模式,是重要的迁移信号

保留理由: 当前最完整的 Serving 引擎选型实战指南,框架对比维度(吞吐量/并发/硬件灵活性/工作负载匹配度)清晰,适合作为推理工程主题的决策参考。

标签: #vLLM #SGLang #Ollama #TensorRT-LLM #Serving引擎 #选型 #PagedAttention #RadixAttention

后续行动: 纳入「推理部署」主题页;建议精读 vLLM vs SGLang 吞吐 benchmark 数据


🔴 保留 2:How to Learn Agentic AI in 2026(含真实生产事故)

来源: Rocky Bhatia(rockybhatia.substack.com)
URL: https://rockybhatia.substack.com/p/how-to-learn-agentic-ai-in-2026
发布时间: 2026
可信度: ★★★★☆
工程价值: ⭐⭐⭐⭐⭐

为何保留(核心):
真实生产事故——「一个 retry handler 导致 recursive retry loop,烧掉数千美元推理费用,同时静默损坏 agent 间共享内存状态」。这不是 demo,是事故报告。

关键工程洞察(均来自真实生产):

  1. Retry 政策是 Agentic 系统第一高危点:团队 demo 完美,3 周后上线就因 retry handler 触发递归
  2. Agent ≠ Chatbot:chatbot 只响应,agent 需分解任务、规划行动、执行工具、维护状态、重试失败、做条件决策——每一步都引入新的故障面
  3. 上下文连贯 ≠ 正确:agent 在 30-40 步执行后逐渐偏离任务但听起来完全自信(Coherence ≠ Correctness)
  4. 检索质量决定 Agent 生死:某团队 agent 用了过时的 rollback 文档(embedding 排名问题),在真实故障响应中执行了旧版降级步骤——无人在意,直到出事故
  5. 正确学习路径:LLM 基础 → 检索系统 → 工作流编排 → 工具执行 → 内存架构 → 可观测性 → 可靠性工程 → 安全治理 → 多 Agent 协调 → 运营经济学(不是先学框架和 prompt 技巧)

丢弃长尾内容: 开头的课程导览广告和社群推广部分(付费订阅诱导内容)

保留理由: Agentic 系统生产可靠性的实战指南,retry/状态管理/可观测性/检索质量四个维度均有真实失败案例支撑,工程价值极高。

标签: #Agentic-AI #生产故障 #Retry循环 #可观测性 #检索质量 #多Agent #可靠性

后续行动: 纳入 Agent 工程主题页;建议标记「Agentic 系统上线检查清单」


🔴 保留 3:SGLang 结构化输出 + RadixAttention 实战(含代码)

来源: Multimodal AI(multimodalai.substack.com)
URL: https://multimodalai.substack.com/p/how-to-add-structure-to-your-llm
发布时间: 2026
可信度: ★★★★☆
工程价值: ⭐⭐⭐⭐

为何保留: - 完整代码示例(可复现步骤): python # SGLang 多轮 QA 装饰器写法 @sgl.function def multi_turn_qa(s): s += sgl.system("You are a helpful assistant...") s += sgl.user("Please give me a list of 3 countries...") s += sgl.assistant(sgl.gen("first_answer", max_tokens=512)) s += sgl.user("Please give me another list...") s += sgl.assistant(sgl.gen("second_answer", max_tokens=512)) return s - 对比传统写法(手写 prompt 拼接 vs SGLang 前端原语),清晰展示结构化收益 - RadixAttention + LRU eviction 策略的 KV Cache 复用机制说明 - 提到控制流 agent 示例(tool selection via choices=["calculator", "search", ...]) - 安装命令:pip install sglanguv add sglang - SGLang 支持 VLM(视觉语言模型)推理

保留理由: SGLang 2026 年已超越 vLLM 成为多轮 Agent/RAG 场景首选,本条目提供了前端原语 + 后端优化机制的完整工程视角,代码可直接参考。

标签: #SGLang #RadixAttention #KV-Cache #结构化输出 #Agent #RAG #代码示例

后续行动: 纳入推理引擎选型补充;对比 vLLM 2026 实测数据(已有其他轮次覆盖)


🟡 保留(有条件)4:The AI Agents Stack 2026 Edition

来源: The AI Engineer(theaiengineer.substack.com)
URL: https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
发布时间: 2026
可信度: ★★★★☆
工程价值: ⭐⭐⭐⭐

条件保留理由: 6 层 Agent 栈框架(Letta 2024 年原版的 2026 年更新版),提到 2026 年新增 3 个独立分类方向,框架价值高。但细节需读原文确认——目前 snippet 仅含引言和目录,无具体代码/数据。

建议: 待全文获取后判断是否归档。

标签: #Agent架构 #AI-Agent-Stack #Agent框架


🟡 条件保留 5:AI Infrastructure Roadmap 2026(Five Frontiers)

来源: Next Big Teng(nextbigteng.substack.com)
URL: https://nextbigteng.substack.com/p/ai-infrastructure-roadmap-five-frontiers-for-2026
发布时间: 2026-04
可信度: ★★★☆☆
工程价值: ⭐⭐⭐

条件保留理由: 偏 VC/战略视角,非工程细节,但对理解 AI Infra 趋势有用(Edge AI、模型层竞争、下一代 Infra 公司方向)。已引用 BVP 数据源。

标签: #AI-Infrastructure #Edge-AI #趋势


🟡 条件保留 6:ML Engineer vs AI Engineer(职业边界澄清)

来源: Nidly(nidly.substack.com)
URL: https://nidly.substack.com/p/dont-waste-2026-on-the-wrong-career
发布时间: 2026
可信度: ★★★☆☆
工程价值: ⭐⭐

条件保留理由: 职业定义文章,非技术实现细节。核心论点有价值:「ML Engineering 产出模型;AI Engineering 使用模型——构建系统、处理数据流、管理故障模式、在现实约束下保证可靠性」。但作为知识库条目价值有限。

标签: #AI-Engineering #ML-Engineering #职业


⚪ 丢弃 7:12 Best RAG Courses in 2026

来源: Class Central
URL: https://www.classcentral.com/report/best-rag-courses
丢弃理由: 课程合集,非工程实战。无命令、无源码、无生产数据,仅课程目录罗列。不符合工程筛选标准。


⚪ 丢弃 8:GitHub aerlabsAI/ai-inference-resources

来源: GitHub aerlabsAI
URL: https://github.com/aerlabsAI/ai-inference-resources
丢弃理由: 资源列表(a curated collection),非原创工程内容。无实测数据、无代码分析、无排障记录。


本轮分类标签汇总

#vLLM #SGLang #Ollama #TensorRT-LLM #Serving引擎 #选型 #PagedAttention #RadixAttention
#Agentic-AI #生产故障 #Retry循环 #可观测性 #检索质量 #多Agent #可靠性
#结构化输出 #Agent #RAG #代码示例
#Agent架构 #AI-Infrastructure #Edge-AI #AI-Engineering #职业边界

建议写入路径

写入文件: /shared/research-kb/inbox/jay/2026-06-21-engineering-filter-round5.md

(本次已写入 /home/node/.openclaw/workspace/2026-06-21-engineering-filter-round5.md,待同步至草稿目录)


本次是否需要精读/审稿/主题页更新

动作 优先级 说明
精读 vLLM vs SGLang vs TensorRT-LLM 完整对比(保留条目1)——建议对比现有其他轮次数据
精读 SGLang 代码示例完整展开(保留条目3)——获取完整 RadixAttention 机制说明
审稿 Agentic AI 生产失败模式(保留条目2)——建议提取成「Agentic 系统上线检查清单」
主题页更新 推理引擎选型主题页(vLLM/SGLang/Ollama 对比数据已超载,需合并)
归档 AI Agents Stack 2026 Edition(条件保留4)——全文获取后再定

版权说明

本文件仅作为 Jay 实例研究简报,不执行 GitHub 写入操作。最终内容同步至 /shared/research-kb/inbox/jay/ 由同步任务处理。