研究知识库草稿 · Jay · 2026-06-16 19:50
主题
工程实践筛选 · Agent 构建实战 · Continuous Batching 机制 · vLLM vs SGLang 选型 · Substack AI Agents Stack 2026
任务元信息
- 执行时间:2026-06-16 19:50(UTC+8)
- 本次检索主题:Agent 构建工程细节 · Inference 调度机制 · vLLM/SGLang 选型
- 检索范围:Substack (theaiengineer/O'Reilly) · YouTube (Balaji Chippada) · 技术博客 (tianpan.co/Spheron/Yotta Labs) · tavily 搜索
- 今日已有报告:
afternoon-database-backend-cloudnative-inference、afternoon-briefing-csdn-backend-agents-moe-substack、1850-engineering-filter-harness-rag-eval、late-csdn-memory-rlvr-substack、1735-hf-spring2026-cosmos-serge-arxiv-agentic-rag-substack、afternoon-csdn-highvalue-llm-rag-agent-mcp、noon-github-trending-inference-kvcache——本报告专注工程量化细节,与上述不重叠
一、Substack 工程洞察
S1. The AI Agents Stack (2026 Edition) — theaiengineer / O'Reilly ★★★★☆
| 字段 | 内容 |
|---|---|
| URL | https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition |
| 发布时间 | 2026年(持续更新) |
| 作者 | theaiengineer(AI 工程垂直 Newsletter,O'Reilly 合作) |
| 可信度 | ★★★★ — 有真实生产经验,工程叙述扎实,含引用来源 |
| 星标/热度 | 高(LinkedIn/Slack 广泛引用) |
核心观点(摘要):
-
Stack ≠ LLM Stack:Agent 系统的工程栈与 LLM 预训练/微调栈是两个不同维度;本篇专注"从 LLM 到生产 Agent"这一工程区间。
-
六层架构(2026 更新):相比 2024 年 Letta 原始框架,2026 年新增至少 3 个独立层次: - Model 层:模型选择(成本/延迟/能力权衡) - Tool 层:工具协议(JSON Schema / MCP / A2A) - Memory 层:状态持久化(三层记忆:working context → session transcript → persistent KB) - Orchestration 层:框架选择(LangGraph / CrewAI / AutoGen / OpenAI SDK) - Evaluation 层:Agent 评估(轨迹评测 / 幻觉检测 / 工具调用成功率) - Deployment 层:运行时安全 guardrail(HITL / 预算控制 / 超时策略)
-
状态管理是最大工程难点:无状态 tool caller 和多会话学习 Agent 是完全不同的工程问题;大多数团队卡在 memory 和 orchestration 层。
-
多 Agent 协调仍是自建领域:如需跨框架 agent 间通信,当前主流方案是 A2A 协议,但大部分生产系统仍在框架层自建集成逻辑。
-
关键决策点:"If your agent calls a model and a few tools, you don't need LangGraph"——工具复杂度决定了框架选型。
评价:这是一篇被业界广泛引用的工程框架文章,六层模型清晰,适合作为 Agent 工程架构的参考骨架。数据点具体,有实际生产经验支撑,非泛泛而谈。
后续行动:建议归档至 agentic-ai 主题页;与 2024 年 Letta 原版对比,标注 2026 年新增层次
S2. "Build Your First AI Agent From Scratch (2026)" — Balaji Chippada ★★★★☆
| 字段 | 内容 |
|---|---|
| URL | https://www.youtube.com/watch?v=g_A9hNZ3eok |
| 发布时间 | 2026-06-15(昨日) |
| 作者 | Balaji Chippada(AI Engineer 教育频道) |
| 可信度 | ★★★½ — 代码级演示,覆盖完整 agent loop,工程教学类 |
| 代码链接 | Google Drive(含完整 Notebook) |
核心工程要点(摘要):
-
"Brain in a Jar" 架构比喻:LLM 本质是一个天才大脑困在罐子里——能思考能说话,但无法主动接触外部数据、运行代码、查天气;赋予"手"(工具)才能 acting。
-
Tool Function 工程规范: ```python # 真实 tool function 示例 def calculate(expression: str) -> float: """Evaluate a mathematical expression.""" return eval(expression)
def get_weather(city: str) -> dict: """Get current weather for a city.""" # 真实 API 调用 ... ```
-
JSON Schema 是 Tool Menu:用 JSON Schema 描述工具签名,LLM 才能理解可用工具的输入输出格式——这是 tool use 的核心工程契约。
-
finish_reason = tool_calls 而非 stop:理解这个状态机是调试 agent 的关键——模型返回 tool_calls 时,开发者负责执行工具并回填结果。
-
Autonomous Agent Loop 完整结构:
while not done: response = llm.chat(messages + tool_results) if finish_reason == "tool_calls": results = execute_tools(response.tool_calls) messages.append(tool_result) else: done = True -
Production Safety 工程细节(真实有价值): - Retry 机制(指数退避) - Backoff 策略(防止 API 限流) - Hard stops(最大迭代次数,防止无限循环)
-
Demo 示例:CSV Analyst Agent——完整演示如何让 agent 自主读写 CSV、分析数据。
评价:这是少数有真实代码的 agent 构建教程,覆盖了从 API 调用到生产级容错的完整闭环。"Brain in a Jar"比喻对理解 agent 架构有教学价值。代码可直接复用,但需自行替换 API 密钥和工具实现。
保留理由:✅ 完整 agent loop 代码;✅ JSON Schema 工具定义;✅ Retry/Backoff/Hard stop 实战细节;✅ CSV Analyst 示例
丢弃理由:无
后续行动:归档;可作为 agentic-ai 主题页"从零构建 Agent"章节的参考链接
二、推理工程量化分析
E1. Continuous Batching: The Single Biggest GPU Utilization Unlock — tianpan.co ★★★★★
| 字段 | 内容 |
|---|---|
| URL | https://tianpan.co/blog/2026-04-09-continuous-batching-llm-inference |
| 发布时间 | 2026年4月 |
| 作者 | Tian Pan(推断工程垂直博客,有系统背景) |
| 可信度 | ★★★★★ — 含具体数字、代码级机制解释、非泛泛而谈 |
| 核心数字 | 4-8x throughput vs static batching |
核心工程机制(摘要):
-
Naive Static Batching 的根本问题: - 传统 Batching:收集一组请求 → 作为整体通过模型 → 等所有序列完成生成 → 才处理下一批 - 问题:短请求完成后,其 GPU 显存和计算槽在空中idle(padding),直到最长序列终止 - 典型表现:一个 100 token 输出的请求和 1000 token 的请求打包同一批次,后者完成后前者 GPU 资源浪费 90%
-
Continuous Batching(Iteration-Level Scheduling / In-Flight Batching)机制: - 在 iteration(生成步)级别调度,而非 request 批次级别 - 每次 forward pass 结束后,立即将已完成的序列移出,将新请求插入 - 无需等待整个批次完成才能调度下一个
-
关键性能数字: - Static batching GPU 利用率:~30-40%(大量 padding 等待) - Continuous batching:4-8x throughput 提升(同等硬件) - Naive PyTorch inference loop:~30-40% GPU 利用率
-
PagedAttention 配合机制: - Naive KV cache 预分配:按 max_output_length 预分配连续 GPU 显存,大量碎片 - PagedAttention:按实际使用分配 KV cache block,减少碎片 + 支持 dynamic prefix caching
评价:本文是推理系统工程化理解的核心文献。"4-8x throughput"数字有说服力,机制解释清晰(iteration-level scheduling),且解释了为什么 continuous batching 不是"调参"而是"架构变更"。与 09:37-noon-github-trending-inference-kvcache 中 KV cache 主题互补(那是 eviction,本文是调度机制)。
保留理由:✅ 具体量化数字;✅ 机制级解释;✅ 与已有 KV cache 文件互补
E2. LLM Serving Optimization: Continuous Batching + PagedAttention + Chunked Prefill — Spheron ★★★★
| 字段 | 内容 |
|---|---|
| URL | https://www.spheron.network/blog/llm-serving-optimization-continuous-batching-paged-attention |
| 发布时间 | 2026年(持续更新) |
| 作者 | Spheron(Web3/AI infra 平台博客) |
| 可信度 | ★★★★ — 含 H100 实测数据,参数级对比表格 |
关键数据点(摘要):
| 技术 | 解决的问题 | 默认状态 | 效果 |
|---|---|---|---|
| Static batching | 基准 | naive 框架默认 | 30-40% GPU 利用率 |
| Continuous batching | 变长请求导致的 idle slot | vLLM 默认开启 | +2-3x throughput vs static |
| PagedAttention | KV cache 碎片化 + 预分配浪费 | vLLM 可调 --gpu-memory-utilization |
+2-4x 并发请求数 |
| Chunked Prefill | prefill 阶段的长序列阻塞 | 部分框架支持 | 降低首 token 延迟抖动 |
评价:作为 E1 的数据补充,H100 + Llama 3.3 70B 的具体参数调优建议实用。适合作为 inference 工程的主题页附录数据。
E3. vLLM vs SGLang in 2026: Speed, Throughput, and Cost Compared — Yotta Labs ★★★★
| 字段 | 内容 |
|---|---|
| URL | https://www.yottalabs.ai/post/vllm-vs-sglang-which-inference-engine-should-you-use-in-2026 |
| 发布时间 | 2026年 |
| 作者 | Yotta Labs(AI infra 工程博客) |
| 可信度 | ★★★★ — 有架构对比,有生产选型建议,非纯 benchmark 软文 |
核心工程对比(摘要):
-
vLLM 定位:高吞吐量推理引擎,核心围绕 GPU 利用率优化;适合高并发、长上下文、throughput 优先场景。
-
SGLang 定位:structured generation pipeline 原生支持,减少上层编排层负担;适合 agent-based 系统和复杂多步推理。
-
关键权衡: - SGLang 的优势场景:多步 agent 推理(structured output + tool calling 流水线);多轮对话状态管理;需要细粒度控制生成结构的场景 - vLLM 的优势场景:纯 throughput 最大化;长序列批量处理;KV cache 碎片化敏感场景
-
架构层洞察:"Even the most optimized engine will struggle if GPU allocation, networking, and orchestration are not designed for high-variance inference workloads."——调度层以下的基础设施设计比引擎选型更根本。
评价:比典型"benchmark 对比"更有工程深度,不仅列数字,还给出了场景化选型框架。可作为 inference engine 选型决策参考。
三、综合筛选结论
保留条目(5条)
| 条目 | 类型 | 筛选理由 | 建议归档路径 |
|---|---|---|---|
| S1. AI Agents Stack 2026 (theaiengineer) | Substack | 六层架构工程框架,业界广泛引用,结构化程度高 | agentic-ai/architecture/ |
| S2. Build Agent From Scratch (Chippada) | YouTube | 完整代码级 agent loop;Retry/Backoff/Hard stop 实战细节;JSON Schema tool use | agentic-ai/engineering/ |
| E1. Continuous Batching (tianpan.co) | 技术博客 | 机制级解释;"4-8x throughput"量化;iteration-level scheduling 核心概念 | inference/serving-optimization/ |
| E2. CB+PagedAttn+ChunkedPrefill (Spheron) | 技术博客 | H100 实测参数表;vLLM 调参建议 | inference/serving-optimization/ |
| E3. vLLM vs SGLang (Yotta Labs) | 工程博客 | 场景化选型框架,非纯 benchmark;架构权衡分析 | inference/engine-comparison/ |
丢弃条目(0条)
本轮候选内容均有具体工程细节,无纯概述或营销类内容。
去重说明
- Continuous Batching:与
09:37-noon-github-trending-inference-kvcache(KV cache 主题)互补——本文是调度机制,已有文件是eviction 策略,不重叠。 - vLLM vs SGLang:与
11:07-afternoon-database-backend-cloudnative-inference(VLDB/SIGMOD/TGI)不重叠——本文是引擎选型框架,已有文件是向量 DB + 云原生推理 - AI Agents Stack:与
17:35-hf-spring2026(六层架构已在其他文章提过但未展开)不重叠——本文有更具体的每层工程要素和决策点
四、后续行动建议
- 精读:E1(Continuous Batching tianpan.co)——机制最清晰,建议纳入 inference 主题页核心参考文献
- 归档:S1 + E3 → agentic-ai 和 inference 主题页更新
- 审稿:S2(YouTube 教程)→ 如知识库有"代码示例"收集需求,可进一步审核代码质量
- 主题页更新:
agentic-ai专题建议增加"Agent Tool Use 工程规范"和"六层架构 2026 对比"两个章节