知识库草稿 · Jay · 2026-06-12 傍晚
本次主题
工程二次筛选:推理引擎实测 Benchmark × GitHub 真实 Bug × LLM 可观测性 · 傍晚场
零、今日已有稿关联分析(避免重复)
| 已有稿 | 核心内容 | 本次差异 |
|---|---|---|
2026-06-12-csdn-vllm-llamafactory-flashattn.md |
vLLM/LLaMA Factory/FlashAttention 源码分析 | 本文侧重实测 Benchmark 数据 + GitHub Bug 真实案例 |
2026-06-12-afternoon-hf-trending-agents-rag-frameworks.md |
HF Papers/Agentic RAG/ByteByteGo/MLOps | 本文聚焦推理引擎实测数字 + 部署命令 |
2026-06-12-github-trending-agentic-systems-arxiv.md |
GitHub Trending + OWASP + Substack | 本文侧重GitHub Issue 真实 Bug + 可复现步骤 |
2026-06-12-evening-supplement-csdb-rag-ebpf-substack.md |
DuckLake/SIGMOD/VLDB/eBPF | 无重叠 |
2026-06-12-llm-agent-systems-research.md |
AgentLeak/Hugo Bowne/AIxFunda | 本文侧重推理系统性能实测 |
本次新增维度: 推理引擎实测 Benchmark 数据(带命令)、GitHub 真实 Issue Bug 案例(带复现步骤)、LLM 可观测性工程命令、88% AI Agent 失败根因框架。
一、推理引擎 Benchmark 精选(带真实数字)
1. Spheron · vLLM vs SGLang vs TensorRT-LLM H100 全面对比(2026)
- 来源:
https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks - 可信度: 高(独立基准测试,有明确硬件配置和命令)
- 实测环境: H100 80GB × 1,Llama 3.1 8B-Instruct,BF16,0.8 GPU memory utilization
- 保留理由: 有史以来最完整的三大推理引擎实测对比表,包含冷启动时间和并发数字
核心数据(吞吐,output tokens/sec):
| 并发 | vLLM | TensorRT-LLM | SGLang |
|---|---|---|---|
| 1 req | 120 tok/s | 130 tok/s | 125 tok/s |
| 10 req | 650 tok/s | 710 tok/s | 680 tok/s |
| 50 req | 1,850 tok/s | 2,100 tok/s | 1,920 tok/s |
| 100 req | 2,400 tok/s | 2,780 tok/s | 2,460 tok/s |
TTFT(Time to First Token,ms):
| 并发 | vLLM p50 | vLLM p95 | TRT-LLM p50 | TRT-LLM p95 | SGLang p50 | SGLang p95 |
|---|---|---|---|---|---|---|
| 1 req | 45 ms | 68 ms | 38 ms | 55 ms | 42 ms | 61 ms |
| 10 req | 120 ms | 195 ms | 105 ms | 170 ms | 112 ms | 178 ms |
| 50 req | 380 ms | 720 ms | 340 ms | 620 ms | 360 ms | 680 ms |
冷启动时间:
- vLLM:~62 sec
- SGLang:~58 sec
- TensorRT-LLM:~28 min(编译开销巨大,但长期服务吞吐量最高)
工程决策框架:
通用生产选 vLLM(快速部署、模型灵活性);固定模型长期跑选 TRT-LLM(吞吐量最高);共享前缀场景(RAG、多轮对话)选 SGLang(RadixAttention 缓存优势)。
- MRV2 新数据(vLLM): GB200 上开启 MRV2 后吞吐量提升 56% vs 旧 runner(H100 数据待补充)
-
SGLang Native Sparse Attention(NSA): DeepSeek V3.2 在 Blackwell 上
--nsa-prefill-backend trtllm+--nsa-decode-backend trtllm实现 3x-5x 提速 -
建议分类:
inference-engineeringvLLMSGLangTensorRT-LLMbenchmarkH100production
2. AIMultiple · vLLM vs LMDeploy vs SGLang H100 三强实测(2026)
- 来源:
https://aimultiple.com/inference-engines - 可信度: 高(独立基准,1,000 ShareGPT prompts,Llama 3.1 8B-Instruct)
- 核心数据(AIMultiple 实测):
| 引擎 | 最佳场景 | 吞吐(tok/s) |
|---|---|---|
| vLLM | 原型/多模型/多硬件 | 12,500 |
| SGLang | 最大吞吐/专用推理集群 | 16,215 |
| LMDeploy | 一键部署 + H100 性能 | 16,132 |
- 关键洞察:
- SGLang 和 LMDeploy 在 H100 上几乎并列(~16,200 tok/s),均比 vLLM 高约 29%
- vLLM 落后原因:插件化架构(PagedAttention)灵活性 vs 专用设计的吞吐量权衡
- LMDeploy 实用优势:
pip install lmdeploy一键安装,vs SGLang 复杂依赖 - SGLang 输出 token 吞吐是 vLLM 的 2.17 倍(894 vs 413 tok/s)——用户实际感知的速度差异
-
SGLang 的 RadixAttention 在 prefix-heavy 工作负载(RAG、多轮对话)中优势巨大;无 prefix 共享时 vLLM 持平
-
建议分类:
inference-engineeringLMDeployvLLMSGLangbenchmarkH100
3. Reddit/ GitHub 实战数据 — SGLang 真实 Benchmark(Ansible 可复现)
- 来源:
https://www.reddit.com/r/LocalLLaMA/comments/1jjl45h/compared_performance_of_vllm_vs_sglang_on_2 - 可信度: 中高(社区实战,有完整 Ansible 复现步骤)
- 完整 Benchmark 结果(SGLang,Llama 3.1 8B,2× H100):
- Successful requests: 10,000
- Benchmark duration: 1,628.80s
- Total input tokens: 10,240,000
- Total generated tokens: 1,254,908
- Output token throughput: 770.45 tok/s
- Total token throughput: 7,057.28 tok/s
- 保留理由: 真实社区复现数据,含 Ansible 配置文件链接;可与 Spheron/AIMultiple 数字交叉验证
- 建议分类:
inference-engineeringvLLMSGLangbenchmarkcommunity
4. Medium · SGLang vs vLLM 并发对比(Llama 3.1 8B + Llama 3 70B)
- 来源:
https://medium.com/@occlubssk/llm-inference-engines-performance-testing-sglang-vs-vllm-cfd2a597852a - 可信度: 中(社区测试,有图表数据但缺完整命令)
- 关键数字(Llama 3.1 8B 并发):
- SGLang:~75-78 tok/s 稳定(并发下几乎不变)
- vLLM:~37 → 35 tok/s 逐步下降(并发下性能衰减)
- SGLang 并发时吞吐量约为 vLLM 的 2 倍
- Llama 3 70B FP8 并发:
- SGLang:~30-31 tok/s 稳定
- vLLM:~22 → 16 tok/s 持续下降
- 建议分类:
inference-engineeringvLLMSGLangconcurrentbenchmark
二、GitHub 真实 Bug 案例(带复现步骤)
工程筛选重点:真实 Issue ≠ 文档说明。Issue 里藏着文档不会写明的问题。
5. 🔴 GitHub Issue · vLLM 3x 慢于 SGLang(Qwen3-VL-8B-FP8)
- 来源:
https://github.com/vllm-project/vllm/issues/29869 - 可信度: 高(GitHub Issue,直接对比测试)
- Bug 描述: Qwen3-VL-8B-FP8 模型在 vLLM 上性能显著低于 SGLang(差 3 倍)
- 工程价值: 这是 2026 年多模态 VLM 部署的典型坑——视觉语言模型在推理引擎间的行为差异比纯 LLM 更显著
- 保留理由: 真实用户报告,有环境描述;多模态部署选引擎时必须参考
- 建议分类:
vLLMSGLangVLMQwen3-VLperformancebugmultimodal
6. 🔴 GitHub Issue · SGLang Qwen3.5-4B CEval 精度下降 4.1%
- 来源:
https://github.com/sgl-project/sglang/issues/22764 - 可信度: 高(GitHub Issue,含完整复现命令)
- Bug 描述: Qwen3.5-4B 在 SGLang 上 CEval 精度比官方/vLLM 低约 4.1%,vLLM 正常
- 复现环境:
bash # Ascend NPU 环境(也影响 GPU) source /usr/local/Ascend/ascend-toolkit/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh python -m sglang.launch_server \ --model-path /nas/disk1/Qwen3.5-4B \ --host 0.0.0.0 \ --port 30000 \ --tp 1 - 跨硬件确认: Bug 同时出现在 GPU 和 NPU 上,说明是 SGLang 推理路径问题,非硬件问题
- 保留理由: 有完整复现命令 + 量化精度差异;是 SGLang 2026 年已知的精度 Bug,非版本兼容性
- 建议分类:
SGLangQwen3.5accuracy-bugCEvalNPUinference
7. 🟡 GitHub Issue · SGLang VLM OOM 持续增长(多模态推理追踪)
- 来源:
https://github.com/sgl-project/sglang/issues/9365 - 可信度: 高(GitHub Issue,OOM 追踪)
- Bug 描述: 向 SGLang VLM 服务器发送带图片的请求时,内存使用持续增长(无上限)
- 保留理由: 多模态 RAG/文档理解系统在生产环境部署 SGLang 时的已知隐患;需要配合内存监控
- 建议分类:
SGLangVLMOOMmemory-leakmultimodalproduction
8. 🟡 GitHub Discussion · L20 上 Qwen3-32B-AWQ TTFT 6 秒(推理延迟坑)
- 来源:
https://github.com/vllm-project/vllm/discussions/17221 - 可信度: 中(社区讨论,真实数据)
- 关键信息:
- L20(48GB)不适合跑 32B AWQ 模型(TTFT ~6s),8B 可接受
- 硬件约束:32B AWQ 需要更大显存或更低量化
- 保留理由: GPU 选型硬约束数据;帮团队避免在 L20 上硬跑大模型
- 建议分类:
vLLMQwen3AWQL20GPU-selectionlatency
9. 🟡 GitHub Issue · sglang v0.4.6 No module named 'vllm'(Docker 环境坑)
- 来源:
https://github.com/sgl-project/sglang/issues/5843 - 可信度: 高(常见 Docker 环境问题)
- Bug 描述: sglang Docker 镜像中 vLLM 模块缺失(NVIDIA 环境配置错误时出现)
- 保留理由: vLLM + SGLang 混用时的典型 Docker 依赖冲突;安装 SGLang 时注意 pip 环境污染
- 建议分类:
SGLangvLLMDockerenvironmentinstallationbug
三、LLM 可观测性工程(带命令)
10. 🔴 MLflow · OpenTelemetry LLM 可观测性实战(2026)
- 来源:
https://mlflow.org/articles/setting-up-llm-observability-pipelines-in-2026 - 可信度: 高(MLflow 官方文档,有步骤说明)
- 核心内容(OpenTelemetry LLM 追踪属性):
python # LLM span 属性标准 { "llm.system": "openai", # 模型供应商 "llm.request.type": "chat", # 请求类型 "llm.token_usage.total_tokens": 150, "llm.token_usage.prompt_tokens": 50, "llm.token_usage.completion_tokens": 100, "gen_ai.operation.name": "chat", "gen_ai.response.id": "chatcmpl-xxx", } - 多步 Agent 追踪结构:
- Root span = Agent 生命周期
- Child span = 每个 tool_call(检索、代码执行、API 调用)
- 最终 span = LLM response
- RAG + Agent 追踪关键属性:
retrieval.query:检索 queryretriever.top_k:返回文档数retrieval.latency_ms:检索延迟llm.groundedness.score:生成内容对检索结果的依赖度- 保留理由: 有实际代码结构和命令;是构建 LLM 可观测性流水线的参考实现
- 建议分类:
LLM-opsOpenTelemetryobservabilitytracingMLflowproduction
11. MLflow · AI Agent 生产构建指南(2026)
- 来源:
https://mlflow.org/articles/building-production-ready-ai-agents-in-2026 - 可信度: 高(MLflow 官方,含生产架构模式)
- 核心架构模式(4 种实际落地的 AI Agent 架构): 1. Deterministic Workflow + AI Nodes:传统规则引擎 + AI 判断节点,适合低风险场景 2. LLM Orchestrated Pipeline:LLM 作为编排器,动态选择工具序列 3. Multi-Agent Supervisor:多个专业 Agent + Supervisor 协调,适合复杂任务 4. Autonomous Agent with Guardrails:自主 Agent + 硬性护栏 + 人工升級阈值
- 生产失败模式(6 种):
- 无限循环(Infinite loops)
- 延迟尖峰(Latency spikes)
- 级联失败(Cascading failures)
- 工具超时(Tool timeouts)
- 上下文长度爆炸(Context explosion)
- 权限逃逸(Permission escalation)
- 保留理由: 与今日 Hugo Bowne(300+ 工程师 TOP10 Q&A)和 OWASP 条目形成生产工程闭环;MLflow 是 Databricks 生态核心,参考价值高
- 建议分类:
AI-agentproductionarchitectureguardrailsMLflowfailure-modes
四、AI Agent 生产失败分析(真实数据)
12. DigitalApplied · 88% AI Agent 生产失败根因框架(2026)
- 来源:
https://www.digitalapplied.com/blog/88-percent-ai-agents-never-reach-production-failure-framework - 可信度: 中高(综合分析,Gartner/McKinsey 数据支持)
- 核心论点:
"失败几乎全部在周围系统——范围界定、数据基础设施、安全架构、集成方式、成本建模、治理结构,以及决定技术原型能否成为生产系统的组织动态。"
- 七大失败模式(94% 覆盖率): 1. 数据基础设施不足:RAG 检索质量差,Agent 收到 garbage in 2. 安全架构缺失:Agent 权限过大(over-privileged),横向移动风险 3. 集成方式不当:深度耦合到销售/CRM 工具,缺乏"Agent-Native"集成层 4. 成本建模失败:没有预算上限,Agent 陷入高费用循环 5. 治理结构缺失:没有"Agent Product Owner"角色 6. 护栏设计不足:无限循环、延迟尖峰、级联失败 7. 可观测性缺失:无法回答"Agent 做了什么决策?为什么?"
- 与 OWASP ASI 系列的关系: 框架级(为什么失败)vs 技术级(具体漏洞类型),互为补充
- 保留理由: 是 AI Agent 项目立项/评审时的系统性检查清单;与今天的 OWASP 条目互补
- 建议分类:
AI-agentproductionfailure-analysisgovernancecost-modelingobservability
13. Gravitee · 88% 组织遭遇 AI Agent 安全事件(真实案例)
- 来源:
https://www.gravitee.io/blog/88-of-companies-have-already-seen-ai-agent-security-failures - 可信度: 中高(安全公司调研,含真实匿名案例)
- 关键数据: 88% 的组织在过去一年经历了已确认或可疑的 AI Agent 安全/隐私事件
- 典型案例(匿名,原文引用):
"Pilot 阶段发现内部 Agent 能访问和暴露超出应有范围的数据,因为权限设置太宽。" "我们发现某个 AI Agent 有权访问它本不该接触的数据集。" "一次小的配置问题导致 Agent 获得了比预期更宽的访问权限。"
- 核心洞察 — AI Agent 是新型身份:
- Agent 需要凭据访问系统(不是人)
- 传统的"人类身份"权限模型不适用 Agent
- 需要"机器身份"权限模型:按任务/时间/资源粒度授权
- 保留理由: 2026 年 AI Agent 安全已成为组织级风险;是 OWASP ASI 条目的生产现实佐证
- 建议分类:
AI-agentsecurityIAMgovernanceproductionincident
五、工程教学资源(Red Hat vLLM 免费课)
14. Red Hat + DeepLearning.AI · vLLM 推理免费实战课(2026-06)
- 来源:
https://developers.redhat.com/blog/2026/06/03/learn-optimize-deploy-and-benchmark-llms-vllm-new-free-course - 可信度: 高(Red Hat + DeepLearning.AI 联合出品)
- 课程名: Fast & Efficient LLM Inference with vLLM
- 核心内容(3 个 Hands-on Lab): 1. LLM Compressor:压缩开源模型(Qwen 模型实战) 2. vLLM Serving:PagedAttention + prefix caching 生产部署 3. GuideLLM + lm-eval:真实流量下的基准测试
- 关键工程概念(课程强调):
- 推理成本 = 内存管理(权重 vs KV Cache)
- 70B 模型仅权重就需要 ~140GB 显存
- PagedAttention:解决 KV Cache 内存碎片化
- Prefix Caching:复用相同 system prompt 的 KV 向量
- 保留理由: 官方免费高质量教程,含 JupyterLab 实战环境;适合作为 vLLM 入门到实战的系统性材料
- 建议分类:
vLLMcoursetrainingPagedAttentioninferencefree
六、保留/丢弃决策汇总
✅ 保留条目
| # | 条目 | 保留理由 | 来源 |
|---|---|---|---|
| 1 | Spheron vLLM vs SGLang vs TRT-LLM H100 Benchmark | 带并发数字 + TTFT + 冷启动,迄今最完整 | Spheron |
| 2 | AIMultiple vLLM vs LMDeploy vs SGLang | 16k vs 12.5k tok/s 实测,SGLang 输出吞吐 2x | AIMultiple |
| 3 | Reddit SGLang Benchmark(Ansible 复现) | 可复现步骤,含完整 tok/s 数字 | |
| 4 | Medium SGLang vs vLLM 并发数据 | 2x 吞吐差距(RAG/多轮场景关键数据) | Medium |
| 5 | GitHub Issue vLLM 3x 慢于 SGLang(Qwen3-VL) | 多模态 VLM 引擎选择真实坑 | GitHub |
| 6 | GitHub Issue SGLang Qwen3.5-4B 精度-4.1% | 有复现命令,跨硬件确认,工程直接可用 | GitHub |
| 7 | GitHub Issue SGLang VLM OOM 持续增长 | 多模态 RAG 生产隐患,真实内存泄漏 | GitHub |
| 8 | GitHub Discussion L20 不适合 32B AWQ | GPU 选型硬约束,节省排障时间 | GitHub |
| 9 | GitHub Issue vLLM 模块缺失(Docker) | SGLang+vLLM 混用环境坑,工程常见 | GitHub |
| 10 | MLflow OpenTelemetry LLM 可观测性 | 带实际代码结构,可直接参考 | MLflow |
| 11 | MLflow AI Agent 生产构建指南 | 4 种架构模式 + 6 种失败模式 | MLflow |
| 12 | DigitalApplied 88% AI Agent 失败根因框架 | 7 大失败模式系统清单,检查清单价值高 | DigitalApplied |
| 13 | Gravitee 88% 组织遭遇 Agent 安全事件 | 真实匿名案例,AI Agent=新型身份概念 | Gravitee |
| 14 | Red Hat vLLM 免费实战课 | 官方免费,JupyterLab 实战,3 个 Lab | Red Hat |
❌ 丢弃条目
| # | 条目 | 丢弃理由 |
|---|---|---|
| D1 | vLLM vs Ollama vs SGLang vs TRT-LLM(The AI Engineer Substack) | 内容与 Spheron/AIMultiple 高度重叠,无新实测数字 |
| D2 | 88% AI Agents Never Make It to Production(Hypersense) | 与 DigitalApplied 内容重叠,无额外工程细节 |
| D3 | Composio AI Agent 2025 报告 | 主要是 Composio 产品推广,工程内容稀薄 |
| D4 | YouTube Udacity Why Agentic AI Projects Fail | 视频形式,无法提取具体命令/数据 |
| D5 | Gravitee 安全博客(非 Gravitee 调研文章) | 博文版已有更详细调研版本 |
七、分类标签
vLLM SGLang TensorRT-LLM LMDeploy benchmark H100 inference-engineering production VLM Qwen3-VL Qwen3.5 OOM memory-leak CEval accuracy-bug Docker environment GPU-selection L20 LLM-ops OpenTelemetry observability tracing AI-agent production architecture guardrails failure-modes AI-agent-security governance cost-modeling 88%-failure free-course Red-Hat DeepLearning.AI PagedAttention prefix-caching RadixAttention
八、高价值条目优先级
| 优先级 | 条目 | 来源 | 建议分类 |
|---|---|---|---|
| 🔴 精读 | Spheron H100 Benchmark(含 TRT-LLM 冷启动数据) | Spheron | inference benchmark |
| 🔴 精读 | AIMultiple vLLM vs LMDeploy vs SGLang 16k tok/s 实测 | AIMultiple | inference LMDeploy |
| 🔴 精读 | GitHub SGLang Qwen3.5-4B CEval -4.1% Bug(含复现命令) | GitHub | SGLang accuracy |
| 🟡 精读 | MLflow OpenTelemetry LLM 可观测性(含代码结构) | MLflow | LLM-ops tracing |
| 🟡 精读 | MLflow AI Agent 生产构建(4 架构 + 6 失败模式) | MLflow | production AI-agent |
| 🟡 精读 | DigitalApplied 88% AI Agent 失败 7 大模式 | DigitalApplied | failure-analysis |
| 🟡 精读 | Gravitee 88% Agent 安全事件 + 匿名案例 | Gravitee | AI-security |
| 🟢 归档 | Reddit SGLang Benchmark(Ansible 复现步骤) | inference |
|
| 🟢 归档 | Medium SGLang vs vLLM 并发 2x 差距 | Medium | inference |
| 🟢 归档 | GitHub vLLM 3x 慢于 SGLang(Qwen3-VL) | GitHub | VLM performance |
| 🟢 归档 | GitHub SGLang VLM OOM 增长 | GitHub | multimodal OOM |
| 🟢 归档 | Red Hat vLLM 免费实战课(3 Lab) | Red Hat | training free |
九、建议写入路径
本次写入: /shared/research-kb/inbox/jay/2026-06-12-evening-inference-engineering-filter.md
十、后续行动建议
- Benchmark 知识库页面更新: 将 Spheron + AIMultiple 数字合并为"推理引擎 H100 Benchmark 速查表"(含并发推荐引擎),更新
inference-engineering主题页 - SGLang Bug 追踪: Issue #22764(Qwen3.5-4B 精度下降)建议加入 SGLang 部署 Checklist;Issue #9365(VLM OOM)加入多模态 RAG 生产检查清单
- LLM 可观测性实战: 基于 MLflow 文章,输出"LLM 可观测性 OpenTelemetry 快速上手"指南(含 YAML 配置模板)
- vLLM 免费课归档: Red Hat 课程链接加入知识库
training标签;适合作为团队内部培训推荐材料 - 88% AI Agent 失败框架 → 检查清单化: 将 DigitalApplied 的 7 大失败模式 + MLflow 的 6 种失败模式 + OWASP ASI 系列合并为"AI Agent 生产就绪检查清单"
Jay · 2026-06-12 傍晚 · 工程二次筛选 · 不执行 GitHub 写入,仅产出草稿