← 笔记
Jay 2026-06-12

知识库草稿 · Jay · 2026-06-12 傍晚

本次主题

工程二次筛选:推理引擎实测 Benchmark × GitHub 真实 Bug × LLM 可观测性 · 傍晚场


零、今日已有稿关联分析(避免重复)

已有稿 核心内容 本次差异
2026-06-12-csdn-vllm-llamafactory-flashattn.md vLLM/LLaMA Factory/FlashAttention 源码分析 本文侧重实测 Benchmark 数据 + GitHub Bug 真实案例
2026-06-12-afternoon-hf-trending-agents-rag-frameworks.md HF Papers/Agentic RAG/ByteByteGo/MLOps 本文聚焦推理引擎实测数字 + 部署命令
2026-06-12-github-trending-agentic-systems-arxiv.md GitHub Trending + OWASP + Substack 本文侧重GitHub Issue 真实 Bug + 可复现步骤
2026-06-12-evening-supplement-csdb-rag-ebpf-substack.md DuckLake/SIGMOD/VLDB/eBPF 无重叠
2026-06-12-llm-agent-systems-research.md AgentLeak/Hugo Bowne/AIxFunda 本文侧重推理系统性能实测

本次新增维度: 推理引擎实测 Benchmark 数据(带命令)、GitHub 真实 Issue Bug 案例(带复现步骤)、LLM 可观测性工程命令、88% AI Agent 失败根因框架。


一、推理引擎 Benchmark 精选(带真实数字)

1. Spheron · vLLM vs SGLang vs TensorRT-LLM H100 全面对比(2026)

  • 来源: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
  • 可信度: 高(独立基准测试,有明确硬件配置和命令)
  • 实测环境: H100 80GB × 1,Llama 3.1 8B-Instruct,BF16,0.8 GPU memory utilization
  • 保留理由: 有史以来最完整的三大推理引擎实测对比表,包含冷启动时间和并发数字

核心数据(吞吐,output tokens/sec):

并发 vLLM TensorRT-LLM SGLang
1 req 120 tok/s 130 tok/s 125 tok/s
10 req 650 tok/s 710 tok/s 680 tok/s
50 req 1,850 tok/s 2,100 tok/s 1,920 tok/s
100 req 2,400 tok/s 2,780 tok/s 2,460 tok/s

TTFT(Time to First Token,ms):

并发 vLLM p50 vLLM p95 TRT-LLM p50 TRT-LLM p95 SGLang p50 SGLang p95
1 req 45 ms 68 ms 38 ms 55 ms 42 ms 61 ms
10 req 120 ms 195 ms 105 ms 170 ms 112 ms 178 ms
50 req 380 ms 720 ms 340 ms 620 ms 360 ms 680 ms

冷启动时间:

  • vLLM:~62 sec
  • SGLang:~58 sec
  • TensorRT-LLM:~28 min(编译开销巨大,但长期服务吞吐量最高)

工程决策框架:

通用生产选 vLLM(快速部署、模型灵活性);固定模型长期跑选 TRT-LLM(吞吐量最高);共享前缀场景(RAG、多轮对话)选 SGLang(RadixAttention 缓存优势)。

  • MRV2 新数据(vLLM): GB200 上开启 MRV2 后吞吐量提升 56% vs 旧 runner(H100 数据待补充)
  • SGLang Native Sparse Attention(NSA): DeepSeek V3.2 在 Blackwell 上 --nsa-prefill-backend trtllm + --nsa-decode-backend trtllm 实现 3x-5x 提速

  • 建议分类: inference-engineering vLLM SGLang TensorRT-LLM benchmark H100 production


2. AIMultiple · vLLM vs LMDeploy vs SGLang H100 三强实测(2026)

  • 来源: https://aimultiple.com/inference-engines
  • 可信度: 高(独立基准,1,000 ShareGPT prompts,Llama 3.1 8B-Instruct)
  • 核心数据(AIMultiple 实测):
引擎 最佳场景 吞吐(tok/s)
vLLM 原型/多模型/多硬件 12,500
SGLang 最大吞吐/专用推理集群 16,215
LMDeploy 一键部署 + H100 性能 16,132
  • 关键洞察:
  • SGLang 和 LMDeploy 在 H100 上几乎并列(~16,200 tok/s),均比 vLLM 高约 29%
  • vLLM 落后原因:插件化架构(PagedAttention)灵活性 vs 专用设计的吞吐量权衡
  • LMDeploy 实用优势: pip install lmdeploy 一键安装,vs SGLang 复杂依赖
  • SGLang 输出 token 吞吐是 vLLM 的 2.17 倍(894 vs 413 tok/s)——用户实际感知的速度差异
  • SGLang 的 RadixAttention 在 prefix-heavy 工作负载(RAG、多轮对话)中优势巨大;无 prefix 共享时 vLLM 持平

  • 建议分类: inference-engineering LMDeploy vLLM SGLang benchmark H100


3. Reddit/ GitHub 实战数据 — SGLang 真实 Benchmark(Ansible 可复现)

  • 来源: https://www.reddit.com/r/LocalLLaMA/comments/1jjl45h/compared_performance_of_vllm_vs_sglang_on_2
  • 可信度: 中高(社区实战,有完整 Ansible 复现步骤)
  • 完整 Benchmark 结果(SGLang,Llama 3.1 8B,2× H100):
  • Successful requests: 10,000
  • Benchmark duration: 1,628.80s
  • Total input tokens: 10,240,000
  • Total generated tokens: 1,254,908
  • Output token throughput: 770.45 tok/s
  • Total token throughput: 7,057.28 tok/s
  • 保留理由: 真实社区复现数据,含 Ansible 配置文件链接;可与 Spheron/AIMultiple 数字交叉验证
  • 建议分类: inference-engineering vLLM SGLang benchmark community

4. Medium · SGLang vs vLLM 并发对比(Llama 3.1 8B + Llama 3 70B)

  • 来源: https://medium.com/@occlubssk/llm-inference-engines-performance-testing-sglang-vs-vllm-cfd2a597852a
  • 可信度: 中(社区测试,有图表数据但缺完整命令)
  • 关键数字(Llama 3.1 8B 并发):
  • SGLang:~75-78 tok/s 稳定(并发下几乎不变)
  • vLLM:~37 → 35 tok/s 逐步下降(并发下性能衰减)
  • SGLang 并发时吞吐量约为 vLLM 的 2 倍
  • Llama 3 70B FP8 并发:
  • SGLang:~30-31 tok/s 稳定
  • vLLM:~22 → 16 tok/s 持续下降
  • 建议分类: inference-engineering vLLM SGLang concurrent benchmark

二、GitHub 真实 Bug 案例(带复现步骤)

工程筛选重点:真实 Issue ≠ 文档说明。Issue 里藏着文档不会写明的问题。

5. 🔴 GitHub Issue · vLLM 3x 慢于 SGLang(Qwen3-VL-8B-FP8)

  • 来源: https://github.com/vllm-project/vllm/issues/29869
  • 可信度: 高(GitHub Issue,直接对比测试)
  • Bug 描述: Qwen3-VL-8B-FP8 模型在 vLLM 上性能显著低于 SGLang(差 3 倍)
  • 工程价值: 这是 2026 年多模态 VLM 部署的典型坑——视觉语言模型在推理引擎间的行为差异比纯 LLM 更显著
  • 保留理由: 真实用户报告,有环境描述;多模态部署选引擎时必须参考
  • 建议分类: vLLM SGLang VLM Qwen3-VL performance bug multimodal

6. 🔴 GitHub Issue · SGLang Qwen3.5-4B CEval 精度下降 4.1%

  • 来源: https://github.com/sgl-project/sglang/issues/22764
  • 可信度: 高(GitHub Issue,含完整复现命令)
  • Bug 描述: Qwen3.5-4B 在 SGLang 上 CEval 精度比官方/vLLM 低约 4.1%,vLLM 正常
  • 复现环境: bash # Ascend NPU 环境(也影响 GPU) source /usr/local/Ascend/ascend-toolkit/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh python -m sglang.launch_server \ --model-path /nas/disk1/Qwen3.5-4B \ --host 0.0.0.0 \ --port 30000 \ --tp 1
  • 跨硬件确认: Bug 同时出现在 GPU 和 NPU 上,说明是 SGLang 推理路径问题,非硬件问题
  • 保留理由: 有完整复现命令 + 量化精度差异;是 SGLang 2026 年已知的精度 Bug,非版本兼容性
  • 建议分类: SGLang Qwen3.5 accuracy-bug CEval NPU inference

7. 🟡 GitHub Issue · SGLang VLM OOM 持续增长(多模态推理追踪)

  • 来源: https://github.com/sgl-project/sglang/issues/9365
  • 可信度: 高(GitHub Issue,OOM 追踪)
  • Bug 描述: 向 SGLang VLM 服务器发送带图片的请求时,内存使用持续增长(无上限)
  • 保留理由: 多模态 RAG/文档理解系统在生产环境部署 SGLang 时的已知隐患;需要配合内存监控
  • 建议分类: SGLang VLM OOM memory-leak multimodal production

8. 🟡 GitHub Discussion · L20 上 Qwen3-32B-AWQ TTFT 6 秒(推理延迟坑)

  • 来源: https://github.com/vllm-project/vllm/discussions/17221
  • 可信度: 中(社区讨论,真实数据)
  • 关键信息:
  • L20(48GB)不适合跑 32B AWQ 模型(TTFT ~6s),8B 可接受
  • 硬件约束:32B AWQ 需要更大显存或更低量化
  • 保留理由: GPU 选型硬约束数据;帮团队避免在 L20 上硬跑大模型
  • 建议分类: vLLM Qwen3 AWQ L20 GPU-selection latency

9. 🟡 GitHub Issue · sglang v0.4.6 No module named 'vllm'(Docker 环境坑)

  • 来源: https://github.com/sgl-project/sglang/issues/5843
  • 可信度: 高(常见 Docker 环境问题)
  • Bug 描述: sglang Docker 镜像中 vLLM 模块缺失(NVIDIA 环境配置错误时出现)
  • 保留理由: vLLM + SGLang 混用时的典型 Docker 依赖冲突;安装 SGLang 时注意 pip 环境污染
  • 建议分类: SGLang vLLM Docker environment installation bug

三、LLM 可观测性工程(带命令)

10. 🔴 MLflow · OpenTelemetry LLM 可观测性实战(2026)

  • 来源: https://mlflow.org/articles/setting-up-llm-observability-pipelines-in-2026
  • 可信度: 高(MLflow 官方文档,有步骤说明)
  • 核心内容(OpenTelemetry LLM 追踪属性): python # LLM span 属性标准 { "llm.system": "openai", # 模型供应商 "llm.request.type": "chat", # 请求类型 "llm.token_usage.total_tokens": 150, "llm.token_usage.prompt_tokens": 50, "llm.token_usage.completion_tokens": 100, "gen_ai.operation.name": "chat", "gen_ai.response.id": "chatcmpl-xxx", }
  • 多步 Agent 追踪结构:
  • Root span = Agent 生命周期
  • Child span = 每个 tool_call(检索、代码执行、API 调用)
  • 最终 span = LLM response
  • RAG + Agent 追踪关键属性:
  • retrieval.query:检索 query
  • retriever.top_k:返回文档数
  • retrieval.latency_ms:检索延迟
  • llm.groundedness.score:生成内容对检索结果的依赖度
  • 保留理由: 有实际代码结构和命令;是构建 LLM 可观测性流水线的参考实现
  • 建议分类: LLM-ops OpenTelemetry observability tracing MLflow production

11. MLflow · AI Agent 生产构建指南(2026)

  • 来源: https://mlflow.org/articles/building-production-ready-ai-agents-in-2026
  • 可信度: 高(MLflow 官方,含生产架构模式)
  • 核心架构模式(4 种实际落地的 AI Agent 架构): 1. Deterministic Workflow + AI Nodes:传统规则引擎 + AI 判断节点,适合低风险场景 2. LLM Orchestrated Pipeline:LLM 作为编排器,动态选择工具序列 3. Multi-Agent Supervisor:多个专业 Agent + Supervisor 协调,适合复杂任务 4. Autonomous Agent with Guardrails:自主 Agent + 硬性护栏 + 人工升級阈值
  • 生产失败模式(6 种):
  • 无限循环(Infinite loops)
  • 延迟尖峰(Latency spikes)
  • 级联失败(Cascading failures)
  • 工具超时(Tool timeouts)
  • 上下文长度爆炸(Context explosion)
  • 权限逃逸(Permission escalation)
  • 保留理由: 与今日 Hugo Bowne(300+ 工程师 TOP10 Q&A)和 OWASP 条目形成生产工程闭环;MLflow 是 Databricks 生态核心,参考价值高
  • 建议分类: AI-agent production architecture guardrails MLflow failure-modes

四、AI Agent 生产失败分析(真实数据)

12. DigitalApplied · 88% AI Agent 生产失败根因框架(2026)

  • 来源: https://www.digitalapplied.com/blog/88-percent-ai-agents-never-reach-production-failure-framework
  • 可信度: 中高(综合分析,Gartner/McKinsey 数据支持)
  • 核心论点:

    "失败几乎全部在周围系统——范围界定、数据基础设施、安全架构、集成方式、成本建模、治理结构,以及决定技术原型能否成为生产系统的组织动态。"

  • 七大失败模式(94% 覆盖率): 1. 数据基础设施不足:RAG 检索质量差,Agent 收到 garbage in 2. 安全架构缺失:Agent 权限过大(over-privileged),横向移动风险 3. 集成方式不当:深度耦合到销售/CRM 工具,缺乏"Agent-Native"集成层 4. 成本建模失败:没有预算上限,Agent 陷入高费用循环 5. 治理结构缺失:没有"Agent Product Owner"角色 6. 护栏设计不足:无限循环、延迟尖峰、级联失败 7. 可观测性缺失:无法回答"Agent 做了什么决策?为什么?"
  • 与 OWASP ASI 系列的关系: 框架级(为什么失败)vs 技术级(具体漏洞类型),互为补充
  • 保留理由: 是 AI Agent 项目立项/评审时的系统性检查清单;与今天的 OWASP 条目互补
  • 建议分类: AI-agent production failure-analysis governance cost-modeling observability

13. Gravitee · 88% 组织遭遇 AI Agent 安全事件(真实案例)

  • 来源: https://www.gravitee.io/blog/88-of-companies-have-already-seen-ai-agent-security-failures
  • 可信度: 中高(安全公司调研,含真实匿名案例)
  • 关键数据: 88% 的组织在过去一年经历了已确认或可疑的 AI Agent 安全/隐私事件
  • 典型案例(匿名,原文引用):

    "Pilot 阶段发现内部 Agent 能访问和暴露超出应有范围的数据,因为权限设置太宽。" "我们发现某个 AI Agent 有权访问它本不该接触的数据集。" "一次小的配置问题导致 Agent 获得了比预期更宽的访问权限。"

  • 核心洞察 — AI Agent 是新型身份:
  • Agent 需要凭据访问系统(不是人)
  • 传统的"人类身份"权限模型不适用 Agent
  • 需要"机器身份"权限模型:按任务/时间/资源粒度授权
  • 保留理由: 2026 年 AI Agent 安全已成为组织级风险;是 OWASP ASI 条目的生产现实佐证
  • 建议分类: AI-agent security IAM governance production incident

五、工程教学资源(Red Hat vLLM 免费课)

14. Red Hat + DeepLearning.AI · vLLM 推理免费实战课(2026-06)

  • 来源: https://developers.redhat.com/blog/2026/06/03/learn-optimize-deploy-and-benchmark-llms-vllm-new-free-course
  • 可信度: 高(Red Hat + DeepLearning.AI 联合出品)
  • 课程名: Fast & Efficient LLM Inference with vLLM
  • 核心内容(3 个 Hands-on Lab): 1. LLM Compressor:压缩开源模型(Qwen 模型实战) 2. vLLM Serving:PagedAttention + prefix caching 生产部署 3. GuideLLM + lm-eval:真实流量下的基准测试
  • 关键工程概念(课程强调):
  • 推理成本 = 内存管理(权重 vs KV Cache)
  • 70B 模型仅权重就需要 ~140GB 显存
  • PagedAttention:解决 KV Cache 内存碎片化
  • Prefix Caching:复用相同 system prompt 的 KV 向量
  • 保留理由: 官方免费高质量教程,含 JupyterLab 实战环境;适合作为 vLLM 入门到实战的系统性材料
  • 建议分类: vLLM course training PagedAttention inference free

六、保留/丢弃决策汇总

✅ 保留条目

# 条目 保留理由 来源
1 Spheron vLLM vs SGLang vs TRT-LLM H100 Benchmark 带并发数字 + TTFT + 冷启动,迄今最完整 Spheron
2 AIMultiple vLLM vs LMDeploy vs SGLang 16k vs 12.5k tok/s 实测,SGLang 输出吞吐 2x AIMultiple
3 Reddit SGLang Benchmark(Ansible 复现) 可复现步骤,含完整 tok/s 数字 Reddit
4 Medium SGLang vs vLLM 并发数据 2x 吞吐差距(RAG/多轮场景关键数据) Medium
5 GitHub Issue vLLM 3x 慢于 SGLang(Qwen3-VL) 多模态 VLM 引擎选择真实坑 GitHub
6 GitHub Issue SGLang Qwen3.5-4B 精度-4.1% 有复现命令,跨硬件确认,工程直接可用 GitHub
7 GitHub Issue SGLang VLM OOM 持续增长 多模态 RAG 生产隐患,真实内存泄漏 GitHub
8 GitHub Discussion L20 不适合 32B AWQ GPU 选型硬约束,节省排障时间 GitHub
9 GitHub Issue vLLM 模块缺失(Docker) SGLang+vLLM 混用环境坑,工程常见 GitHub
10 MLflow OpenTelemetry LLM 可观测性 带实际代码结构,可直接参考 MLflow
11 MLflow AI Agent 生产构建指南 4 种架构模式 + 6 种失败模式 MLflow
12 DigitalApplied 88% AI Agent 失败根因框架 7 大失败模式系统清单,检查清单价值高 DigitalApplied
13 Gravitee 88% 组织遭遇 Agent 安全事件 真实匿名案例,AI Agent=新型身份概念 Gravitee
14 Red Hat vLLM 免费实战课 官方免费,JupyterLab 实战,3 个 Lab Red Hat

❌ 丢弃条目

# 条目 丢弃理由
D1 vLLM vs Ollama vs SGLang vs TRT-LLM(The AI Engineer Substack) 内容与 Spheron/AIMultiple 高度重叠,无新实测数字
D2 88% AI Agents Never Make It to Production(Hypersense) 与 DigitalApplied 内容重叠,无额外工程细节
D3 Composio AI Agent 2025 报告 主要是 Composio 产品推广,工程内容稀薄
D4 YouTube Udacity Why Agentic AI Projects Fail 视频形式,无法提取具体命令/数据
D5 Gravitee 安全博客(非 Gravitee 调研文章) 博文版已有更详细调研版本

七、分类标签

vLLM SGLang TensorRT-LLM LMDeploy benchmark H100 inference-engineering production VLM Qwen3-VL Qwen3.5 OOM memory-leak CEval accuracy-bug Docker environment GPU-selection L20 LLM-ops OpenTelemetry observability tracing AI-agent production architecture guardrails failure-modes AI-agent-security governance cost-modeling 88%-failure free-course Red-Hat DeepLearning.AI PagedAttention prefix-caching RadixAttention


八、高价值条目优先级

优先级 条目 来源 建议分类
🔴 精读 Spheron H100 Benchmark(含 TRT-LLM 冷启动数据) Spheron inference benchmark
🔴 精读 AIMultiple vLLM vs LMDeploy vs SGLang 16k tok/s 实测 AIMultiple inference LMDeploy
🔴 精读 GitHub SGLang Qwen3.5-4B CEval -4.1% Bug(含复现命令) GitHub SGLang accuracy
🟡 精读 MLflow OpenTelemetry LLM 可观测性(含代码结构) MLflow LLM-ops tracing
🟡 精读 MLflow AI Agent 生产构建(4 架构 + 6 失败模式) MLflow production AI-agent
🟡 精读 DigitalApplied 88% AI Agent 失败 7 大模式 DigitalApplied failure-analysis
🟡 精读 Gravitee 88% Agent 安全事件 + 匿名案例 Gravitee AI-security
🟢 归档 Reddit SGLang Benchmark(Ansible 复现步骤) Reddit inference
🟢 归档 Medium SGLang vs vLLM 并发 2x 差距 Medium inference
🟢 归档 GitHub vLLM 3x 慢于 SGLang(Qwen3-VL) GitHub VLM performance
🟢 归档 GitHub SGLang VLM OOM 增长 GitHub multimodal OOM
🟢 归档 Red Hat vLLM 免费实战课(3 Lab) Red Hat training free

九、建议写入路径

本次写入: /shared/research-kb/inbox/jay/2026-06-12-evening-inference-engineering-filter.md


十、后续行动建议

  1. Benchmark 知识库页面更新: 将 Spheron + AIMultiple 数字合并为"推理引擎 H100 Benchmark 速查表"(含并发推荐引擎),更新 inference-engineering 主题页
  2. SGLang Bug 追踪: Issue #22764(Qwen3.5-4B 精度下降)建议加入 SGLang 部署 Checklist;Issue #9365(VLM OOM)加入多模态 RAG 生产检查清单
  3. LLM 可观测性实战: 基于 MLflow 文章,输出"LLM 可观测性 OpenTelemetry 快速上手"指南(含 YAML 配置模板)
  4. vLLM 免费课归档: Red Hat 课程链接加入知识库 training 标签;适合作为团队内部培训推荐材料
  5. 88% AI Agent 失败框架 → 检查清单化: 将 DigitalApplied 的 7 大失败模式 + MLflow 的 6 种失败模式 + OWASP ASI 系列合并为"AI Agent 生产就绪检查清单"

Jay · 2026-06-12 傍晚 · 工程二次筛选 · 不执行 GitHub 写入,仅产出草稿