← 笔记
Jay 2026-06-16 19:50

研究知识库草稿 · Jay · 2026-06-16 19:50

主题

工程实践筛选 · Agent 构建实战 · Continuous Batching 机制 · vLLM vs SGLang 选型 · Substack AI Agents Stack 2026


任务元信息

  • 执行时间:2026-06-16 19:50(UTC+8)
  • 本次检索主题:Agent 构建工程细节 · Inference 调度机制 · vLLM/SGLang 选型
  • 检索范围:Substack (theaiengineer/O'Reilly) · YouTube (Balaji Chippada) · 技术博客 (tianpan.co/Spheron/Yotta Labs) · tavily 搜索
  • 今日已有报告afternoon-database-backend-cloudnative-inferenceafternoon-briefing-csdn-backend-agents-moe-substack1850-engineering-filter-harness-rag-evallate-csdn-memory-rlvr-substack1735-hf-spring2026-cosmos-serge-arxiv-agentic-rag-substackafternoon-csdn-highvalue-llm-rag-agent-mcpnoon-github-trending-inference-kvcache——本报告专注工程量化细节,与上述不重叠

一、Substack 工程洞察

S1. The AI Agents Stack (2026 Edition) — theaiengineer / O'Reilly ★★★★☆

字段 内容
URL https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
发布时间 2026年(持续更新)
作者 theaiengineer(AI 工程垂直 Newsletter,O'Reilly 合作)
可信度 ★★★★ — 有真实生产经验,工程叙述扎实,含引用来源
星标/热度 高(LinkedIn/Slack 广泛引用)

核心观点(摘要)

  1. Stack ≠ LLM Stack:Agent 系统的工程栈与 LLM 预训练/微调栈是两个不同维度;本篇专注"从 LLM 到生产 Agent"这一工程区间。

  2. 六层架构(2026 更新):相比 2024 年 Letta 原始框架,2026 年新增至少 3 个独立层次: - Model 层:模型选择(成本/延迟/能力权衡) - Tool 层:工具协议(JSON Schema / MCP / A2A) - Memory 层:状态持久化(三层记忆:working context → session transcript → persistent KB) - Orchestration 层:框架选择(LangGraph / CrewAI / AutoGen / OpenAI SDK) - Evaluation 层:Agent 评估(轨迹评测 / 幻觉检测 / 工具调用成功率) - Deployment 层:运行时安全 guardrail(HITL / 预算控制 / 超时策略)

  3. 状态管理是最大工程难点:无状态 tool caller 和多会话学习 Agent 是完全不同的工程问题;大多数团队卡在 memory 和 orchestration 层。

  4. 多 Agent 协调仍是自建领域:如需跨框架 agent 间通信,当前主流方案是 A2A 协议,但大部分生产系统仍在框架层自建集成逻辑。

  5. 关键决策点:"If your agent calls a model and a few tools, you don't need LangGraph"——工具复杂度决定了框架选型。

评价:这是一篇被业界广泛引用的工程框架文章,六层模型清晰,适合作为 Agent 工程架构的参考骨架。数据点具体,有实际生产经验支撑,非泛泛而谈。

后续行动:建议归档至 agentic-ai 主题页;与 2024 年 Letta 原版对比,标注 2026 年新增层次


S2. "Build Your First AI Agent From Scratch (2026)" — Balaji Chippada ★★★★☆

字段 内容
URL https://www.youtube.com/watch?v=g_A9hNZ3eok
发布时间 2026-06-15(昨日)
作者 Balaji Chippada(AI Engineer 教育频道)
可信度 ★★★½ — 代码级演示,覆盖完整 agent loop,工程教学类
代码链接 Google Drive(含完整 Notebook)

核心工程要点(摘要)

  1. "Brain in a Jar" 架构比喻:LLM 本质是一个天才大脑困在罐子里——能思考能说话,但无法主动接触外部数据、运行代码、查天气;赋予"手"(工具)才能 acting。

  2. Tool Function 工程规范: ```python # 真实 tool function 示例 def calculate(expression: str) -> float: """Evaluate a mathematical expression.""" return eval(expression)

def get_weather(city: str) -> dict: """Get current weather for a city.""" # 真实 API 调用 ... ```

  1. JSON Schema 是 Tool Menu:用 JSON Schema 描述工具签名,LLM 才能理解可用工具的输入输出格式——这是 tool use 的核心工程契约。

  2. finish_reason = tool_calls 而非 stop:理解这个状态机是调试 agent 的关键——模型返回 tool_calls 时,开发者负责执行工具并回填结果。

  3. Autonomous Agent Loop 完整结构while not done: response = llm.chat(messages + tool_results) if finish_reason == "tool_calls": results = execute_tools(response.tool_calls) messages.append(tool_result) else: done = True

  4. Production Safety 工程细节(真实有价值): - Retry 机制(指数退避) - Backoff 策略(防止 API 限流) - Hard stops(最大迭代次数,防止无限循环)

  5. Demo 示例:CSV Analyst Agent——完整演示如何让 agent 自主读写 CSV、分析数据。

评价:这是少数有真实代码的 agent 构建教程,覆盖了从 API 调用到生产级容错的完整闭环。"Brain in a Jar"比喻对理解 agent 架构有教学价值。代码可直接复用,但需自行替换 API 密钥和工具实现。

保留理由:✅ 完整 agent loop 代码;✅ JSON Schema 工具定义;✅ Retry/Backoff/Hard stop 实战细节;✅ CSV Analyst 示例

丢弃理由:无

后续行动:归档;可作为 agentic-ai 主题页"从零构建 Agent"章节的参考链接


二、推理工程量化分析

E1. Continuous Batching: The Single Biggest GPU Utilization Unlock — tianpan.co ★★★★★

字段 内容
URL https://tianpan.co/blog/2026-04-09-continuous-batching-llm-inference
发布时间 2026年4月
作者 Tian Pan(推断工程垂直博客,有系统背景)
可信度 ★★★★★ — 含具体数字、代码级机制解释、非泛泛而谈
核心数字 4-8x throughput vs static batching

核心工程机制(摘要)

  1. Naive Static Batching 的根本问题: - 传统 Batching:收集一组请求 → 作为整体通过模型 → 等所有序列完成生成 → 才处理下一批 - 问题:短请求完成后,其 GPU 显存和计算槽在空中idle(padding),直到最长序列终止 - 典型表现:一个 100 token 输出的请求和 1000 token 的请求打包同一批次,后者完成后前者 GPU 资源浪费 90%

  2. Continuous Batching(Iteration-Level Scheduling / In-Flight Batching)机制: - 在 iteration(生成步)级别调度,而非 request 批次级别 - 每次 forward pass 结束后,立即将已完成的序列移出,将新请求插入 - 无需等待整个批次完成才能调度下一个

  3. 关键性能数字: - Static batching GPU 利用率:~30-40%(大量 padding 等待) - Continuous batching:4-8x throughput 提升(同等硬件) - Naive PyTorch inference loop:~30-40% GPU 利用率

  4. PagedAttention 配合机制: - Naive KV cache 预分配:按 max_output_length 预分配连续 GPU 显存,大量碎片 - PagedAttention:按实际使用分配 KV cache block,减少碎片 + 支持 dynamic prefix caching

评价:本文是推理系统工程化理解的核心文献。"4-8x throughput"数字有说服力,机制解释清晰(iteration-level scheduling),且解释了为什么 continuous batching 不是"调参"而是"架构变更"。与 09:37-noon-github-trending-inference-kvcache 中 KV cache 主题互补(那是 eviction,本文是调度机制)。

保留理由:✅ 具体量化数字;✅ 机制级解释;✅ 与已有 KV cache 文件互补


E2. LLM Serving Optimization: Continuous Batching + PagedAttention + Chunked Prefill — Spheron ★★★★

字段 内容
URL https://www.spheron.network/blog/llm-serving-optimization-continuous-batching-paged-attention
发布时间 2026年(持续更新)
作者 Spheron(Web3/AI infra 平台博客)
可信度 ★★★★ — 含 H100 实测数据,参数级对比表格

关键数据点(摘要)

技术 解决的问题 默认状态 效果
Static batching 基准 naive 框架默认 30-40% GPU 利用率
Continuous batching 变长请求导致的 idle slot vLLM 默认开启 +2-3x throughput vs static
PagedAttention KV cache 碎片化 + 预分配浪费 vLLM 可调 --gpu-memory-utilization +2-4x 并发请求数
Chunked Prefill prefill 阶段的长序列阻塞 部分框架支持 降低首 token 延迟抖动

评价:作为 E1 的数据补充,H100 + Llama 3.3 70B 的具体参数调优建议实用。适合作为 inference 工程的主题页附录数据。


E3. vLLM vs SGLang in 2026: Speed, Throughput, and Cost Compared — Yotta Labs ★★★★

字段 内容
URL https://www.yottalabs.ai/post/vllm-vs-sglang-which-inference-engine-should-you-use-in-2026
发布时间 2026年
作者 Yotta Labs(AI infra 工程博客)
可信度 ★★★★ — 有架构对比,有生产选型建议,非纯 benchmark 软文

核心工程对比(摘要)

  1. vLLM 定位:高吞吐量推理引擎,核心围绕 GPU 利用率优化;适合高并发、长上下文、throughput 优先场景。

  2. SGLang 定位:structured generation pipeline 原生支持,减少上层编排层负担;适合 agent-based 系统和复杂多步推理。

  3. 关键权衡: - SGLang 的优势场景:多步 agent 推理(structured output + tool calling 流水线);多轮对话状态管理;需要细粒度控制生成结构的场景 - vLLM 的优势场景:纯 throughput 最大化;长序列批量处理;KV cache 碎片化敏感场景

  4. 架构层洞察:"Even the most optimized engine will struggle if GPU allocation, networking, and orchestration are not designed for high-variance inference workloads."——调度层以下的基础设施设计比引擎选型更根本。

评价:比典型"benchmark 对比"更有工程深度,不仅列数字,还给出了场景化选型框架。可作为 inference engine 选型决策参考。


三、综合筛选结论

保留条目(5条)

条目 类型 筛选理由 建议归档路径
S1. AI Agents Stack 2026 (theaiengineer) Substack 六层架构工程框架,业界广泛引用,结构化程度高 agentic-ai/architecture/
S2. Build Agent From Scratch (Chippada) YouTube 完整代码级 agent loop;Retry/Backoff/Hard stop 实战细节;JSON Schema tool use agentic-ai/engineering/
E1. Continuous Batching (tianpan.co) 技术博客 机制级解释;"4-8x throughput"量化;iteration-level scheduling 核心概念 inference/serving-optimization/
E2. CB+PagedAttn+ChunkedPrefill (Spheron) 技术博客 H100 实测参数表;vLLM 调参建议 inference/serving-optimization/
E3. vLLM vs SGLang (Yotta Labs) 工程博客 场景化选型框架,非纯 benchmark;架构权衡分析 inference/engine-comparison/

丢弃条目(0条)

本轮候选内容均有具体工程细节,无纯概述或营销类内容。

去重说明

  • Continuous Batching:与 09:37-noon-github-trending-inference-kvcache(KV cache 主题)互补——本文是调度机制,已有文件是eviction 策略,不重叠。
  • vLLM vs SGLang:与 11:07-afternoon-database-backend-cloudnative-inference(VLDB/SIGMOD/TGI)不重叠——本文是引擎选型框架,已有文件是向量 DB + 云原生推理
  • AI Agents Stack:与 17:35-hf-spring2026(六层架构已在其他文章提过但未展开)不重叠——本文有更具体的每层工程要素和决策点

四、后续行动建议

  1. 精读:E1(Continuous Batching tianpan.co)——机制最清晰,建议纳入 inference 主题页核心参考文献
  2. 归档:S1 + E3 → agentic-ai 和 inference 主题页更新
  3. 审稿:S2(YouTube 教程)→ 如知识库有"代码示例"收集需求,可进一步审核代码质量
  4. 主题页更新agentic-ai 专题建议增加"Agent Tool Use 工程规范"和"六层架构 2026 对比"两个章节