研究知识库草稿 · Jay · 2026-06-16 19:50

主题

工程实践筛选 · Agent 构建实战 · Continuous Batching 机制 · vLLM vs SGLang 选型 · Substack AI Agents Stack 2026

任务元信息

执行时间：2026-06-16 19:50（UTC+8）
本次检索主题：Agent 构建工程细节 · Inference 调度机制 · vLLM/SGLang 选型
检索范围：Substack (theaiengineer/O'Reilly) · YouTube (Balaji Chippada) · 技术博客 (tianpan.co/Spheron/Yotta Labs) · tavily 搜索
今日已有报告：afternoon-database-backend-cloudnative-inference、afternoon-briefing-csdn-backend-agents-moe-substack、1850-engineering-filter-harness-rag-eval、late-csdn-memory-rlvr-substack、1735-hf-spring2026-cosmos-serge-arxiv-agentic-rag-substack、afternoon-csdn-highvalue-llm-rag-agent-mcp、noon-github-trending-inference-kvcache——本报告专注工程量化细节，与上述不重叠

一、Substack 工程洞察

S1. The AI Agents Stack (2026 Edition) — theaiengineer / O'Reilly ★★★★☆

字段	内容
URL	https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
发布时间	2026年（持续更新）
作者	theaiengineer（AI 工程垂直 Newsletter，O'Reilly 合作）
可信度	★★★★ — 有真实生产经验，工程叙述扎实，含引用来源
星标/热度	高（LinkedIn/Slack 广泛引用）

核心观点（摘要）：

Stack ≠ LLM Stack：Agent 系统的工程栈与 LLM 预训练/微调栈是两个不同维度；本篇专注"从 LLM 到生产 Agent"这一工程区间。
六层架构（2026 更新）：相比 2024 年 Letta 原始框架，2026 年新增至少 3 个独立层次： - Model 层：模型选择（成本/延迟/能力权衡） - Tool 层：工具协议（JSON Schema / MCP / A2A） - Memory 层：状态持久化（三层记忆：working context → session transcript → persistent KB） - Orchestration 层：框架选择（LangGraph / CrewAI / AutoGen / OpenAI SDK） - Evaluation 层：Agent 评估（轨迹评测 / 幻觉检测 / 工具调用成功率） - Deployment 层：运行时安全 guardrail（HITL / 预算控制 / 超时策略）
状态管理是最大工程难点：无状态 tool caller 和多会话学习 Agent 是完全不同的工程问题；大多数团队卡在 memory 和 orchestration 层。
多 Agent 协调仍是自建领域：如需跨框架 agent 间通信，当前主流方案是 A2A 协议，但大部分生产系统仍在框架层自建集成逻辑。
关键决策点："If your agent calls a model and a few tools, you don't need LangGraph"——工具复杂度决定了框架选型。

评价：这是一篇被业界广泛引用的工程框架文章，六层模型清晰，适合作为 Agent 工程架构的参考骨架。数据点具体，有实际生产经验支撑，非泛泛而谈。

后续行动：建议归档至 agentic-ai 主题页；与 2024 年 Letta 原版对比，标注 2026 年新增层次

S2. "Build Your First AI Agent From Scratch (2026)" — Balaji Chippada ★★★★☆

字段	内容
URL	https://www.youtube.com/watch?v=g_A9hNZ3eok
发布时间	2026-06-15（昨日）
作者	Balaji Chippada（AI Engineer 教育频道）
可信度	★★★½ — 代码级演示，覆盖完整 agent loop，工程教学类
代码链接	Google Drive（含完整 Notebook）

核心工程要点（摘要）：

"Brain in a Jar" 架构比喻：LLM 本质是一个天才大脑困在罐子里——能思考能说话，但无法主动接触外部数据、运行代码、查天气；赋予"手"（工具）才能 acting。
Tool Function 工程规范： ```python # 真实 tool function 示例 def calculate(expression: str) -> float: """Evaluate a mathematical expression.""" return eval(expression)

def get_weather(city: str) -> dict: """Get current weather for a city.""" # 真实 API 调用 ... ```

JSON Schema 是 Tool Menu：用 JSON Schema 描述工具签名，LLM 才能理解可用工具的输入输出格式——这是 tool use 的核心工程契约。
finish_reason = tool_calls 而非 stop：理解这个状态机是调试 agent 的关键——模型返回 tool_calls 时，开发者负责执行工具并回填结果。
Autonomous Agent Loop 完整结构： while not done: response = llm.chat(messages + tool_results) if finish_reason == "tool_calls": results = execute_tools(response.tool_calls) messages.append(tool_result) else: done = True
Production Safety 工程细节（真实有价值）： - Retry 机制（指数退避） - Backoff 策略（防止 API 限流） - Hard stops（最大迭代次数，防止无限循环）
Demo 示例：CSV Analyst Agent——完整演示如何让 agent 自主读写 CSV、分析数据。

评价：这是少数有真实代码的 agent 构建教程，覆盖了从 API 调用到生产级容错的完整闭环。"Brain in a Jar"比喻对理解 agent 架构有教学价值。代码可直接复用，但需自行替换 API 密钥和工具实现。

保留理由：✅ 完整 agent loop 代码；✅ JSON Schema 工具定义；✅ Retry/Backoff/Hard stop 实战细节；✅ CSV Analyst 示例

丢弃理由：无

后续行动：归档；可作为 agentic-ai 主题页"从零构建 Agent"章节的参考链接

二、推理工程量化分析

E1. Continuous Batching: The Single Biggest GPU Utilization Unlock — tianpan.co ★★★★★

字段	内容
URL	https://tianpan.co/blog/2026-04-09-continuous-batching-llm-inference
发布时间	2026年4月
作者	Tian Pan（推断工程垂直博客，有系统背景）
可信度	★★★★★ — 含具体数字、代码级机制解释、非泛泛而谈
核心数字	4-8x throughput vs static batching

核心工程机制（摘要）：

Naive Static Batching 的根本问题： - 传统 Batching：收集一组请求 → 作为整体通过模型 → 等所有序列完成生成 → 才处理下一批 - 问题：短请求完成后，其 GPU 显存和计算槽在空中idle（padding），直到最长序列终止 - 典型表现：一个 100 token 输出的请求和 1000 token 的请求打包同一批次，后者完成后前者 GPU 资源浪费 90%
Continuous Batching（Iteration-Level Scheduling / In-Flight Batching）机制： - 在 iteration（生成步）级别调度，而非 request 批次级别 - 每次 forward pass 结束后，立即将已完成的序列移出，将新请求插入 - 无需等待整个批次完成才能调度下一个
关键性能数字： - Static batching GPU 利用率：~30-40%（大量 padding 等待） - Continuous batching：4-8x throughput 提升（同等硬件） - Naive PyTorch inference loop：~30-40% GPU 利用率
PagedAttention 配合机制： - Naive KV cache 预分配：按 max_output_length 预分配连续 GPU 显存，大量碎片 - PagedAttention：按实际使用分配 KV cache block，减少碎片 + 支持 dynamic prefix caching

评价：本文是推理系统工程化理解的核心文献。"4-8x throughput"数字有说服力，机制解释清晰（iteration-level scheduling），且解释了为什么 continuous batching 不是"调参"而是"架构变更"。与 09:37-noon-github-trending-inference-kvcache 中 KV cache 主题互补（那是 eviction，本文是调度机制）。

保留理由：✅ 具体量化数字；✅ 机制级解释；✅ 与已有 KV cache 文件互补

E2. LLM Serving Optimization: Continuous Batching + PagedAttention + Chunked Prefill — Spheron ★★★★

字段	内容
URL	https://www.spheron.network/blog/llm-serving-optimization-continuous-batching-paged-attention
发布时间	2026年（持续更新）
作者	Spheron（Web3/AI infra 平台博客）
可信度	★★★★ — 含 H100 实测数据，参数级对比表格

关键数据点（摘要）：

技术	解决的问题	默认状态	效果
Static batching	基准	naive 框架默认	30-40% GPU 利用率
Continuous batching	变长请求导致的 idle slot	vLLM 默认开启	+2-3x throughput vs static
PagedAttention	KV cache 碎片化 + 预分配浪费	vLLM 可调 `--gpu-memory-utilization`	+2-4x 并发请求数
Chunked Prefill	prefill 阶段的长序列阻塞	部分框架支持	降低首 token 延迟抖动

评价：作为 E1 的数据补充，H100 + Llama 3.3 70B 的具体参数调优建议实用。适合作为 inference 工程的主题页附录数据。

E3. vLLM vs SGLang in 2026: Speed, Throughput, and Cost Compared — Yotta Labs ★★★★

字段	内容
URL	https://www.yottalabs.ai/post/vllm-vs-sglang-which-inference-engine-should-you-use-in-2026
发布时间	2026年
作者	Yotta Labs（AI infra 工程博客）
可信度	★★★★ — 有架构对比，有生产选型建议，非纯 benchmark 软文

核心工程对比（摘要）：

vLLM 定位：高吞吐量推理引擎，核心围绕 GPU 利用率优化；适合高并发、长上下文、throughput 优先场景。
SGLang 定位：structured generation pipeline 原生支持，减少上层编排层负担；适合 agent-based 系统和复杂多步推理。
关键权衡： - SGLang 的优势场景：多步 agent 推理（structured output + tool calling 流水线）；多轮对话状态管理；需要细粒度控制生成结构的场景 - vLLM 的优势场景：纯 throughput 最大化；长序列批量处理；KV cache 碎片化敏感场景
架构层洞察："Even the most optimized engine will struggle if GPU allocation, networking, and orchestration are not designed for high-variance inference workloads."——调度层以下的基础设施设计比引擎选型更根本。

评价：比典型"benchmark 对比"更有工程深度，不仅列数字，还给出了场景化选型框架。可作为 inference engine 选型决策参考。

三、综合筛选结论

保留条目（5条）

条目	类型	筛选理由	建议归档路径
S1. AI Agents Stack 2026 (theaiengineer)	Substack	六层架构工程框架，业界广泛引用，结构化程度高	`agentic-ai/architecture/`
S2. Build Agent From Scratch (Chippada)	YouTube	完整代码级 agent loop；Retry/Backoff/Hard stop 实战细节；JSON Schema tool use	`agentic-ai/engineering/`
E1. Continuous Batching (tianpan.co)	技术博客	机制级解释；"4-8x throughput"量化；iteration-level scheduling 核心概念	`inference/serving-optimization/`
E2. CB+PagedAttn+ChunkedPrefill (Spheron)	技术博客	H100 实测参数表；vLLM 调参建议	`inference/serving-optimization/`
E3. vLLM vs SGLang (Yotta Labs)	工程博客	场景化选型框架，非纯 benchmark；架构权衡分析	`inference/engine-comparison/`

丢弃条目（0条）

本轮候选内容均有具体工程细节，无纯概述或营销类内容。

去重说明

Continuous Batching：与 09:37-noon-github-trending-inference-kvcache（KV cache 主题）互补——本文是调度机制，已有文件是eviction 策略，不重叠。
vLLM vs SGLang：与 11:07-afternoon-database-backend-cloudnative-inference（VLDB/SIGMOD/TGI）不重叠——本文是引擎选型框架，已有文件是向量 DB + 云原生推理
AI Agents Stack：与 17:35-hf-spring2026（六层架构已在其他文章提过但未展开）不重叠——本文有更具体的每层工程要素和决策点

四、后续行动建议

精读：E1（Continuous Batching tianpan.co）——机制最清晰，建议纳入 inference 主题页核心参考文献
归档：S1 + E3 → agentic-ai 和 inference 主题页更新
审稿：S2（YouTube 教程）→ 如知识库有"代码示例"收集需求，可进一步审核代码质量
主题页更新：agentic-ai 专题建议增加"Agent Tool Use 工程规范"和"六层架构 2026 对比"两个章节