工程实践筛选 · Jay · 2026-06-21 上午
本次主题
LLM Inference Engine 对比 & AI Agent 框架选型工程实践
检索范围
vLLM / SGLang / TensorRT-LLM 生产 benchmark;Agent 框架 LangGraph / CrewAI / AutoGen 工程对比;vLLM GitHub 真实 OOM/错误 issues
高价值条目
1. vLLM vs TensorRT-LLM vs SGLang H100 Benchmark(Spheron, 2026)
来源: Spheron Blog
URL: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
可信度: 高(实测数据,H100 8卡配置)
工程价值: ⭐⭐⭐⭐⭐
核心内容: - 吞吐量对比表(50并发请求): | Engine | Throughput | TTFT p50 | |--------|------------|-----------| | vLLM | 1,850 tok/s | 120ms | | TensorRT-LLM | 2,100 tok/s | 105ms | | SGLang | 1,920 tok/s | 112ms |
- CPM 计算公式:
CPM = (GPU $/hr) / (tokens_per_sec × 3600 / 1,000,000) - H100 8卡各引擎 CPM 对比表(Llama 3.1 70B, batch=256):
- A100 80G: ~$1.67/M tokens
- H100 SXM5: ~$1.90/M tokens
- H200 SXM5: ~$2.80/M tokens
- B200 SXM6: ~$3.18/M tokens
保留理由: 真实生产 benchmark 数据,含 TTFT、throughput、CPM 三大核心指标,涵盖主流 4 种 GPU 配置。提供了明确的选型建议:通用场景用 vLLM,固定模型最大吞吐用 TensorRT-LLM,共享前缀/多轮对话用 SGLang。
建议写入: inference-engineering 主题页
2. vLLM vs SGLang vs TensorRT-LLM 详细对比(Inference Engineering, 2026-06-01)
来源: inferenceengineering.tech
URL: https://inferenceengineering.tech/learn/vllm-vs-sglang-vs-tensorrt-llm
可信度: 高(专业工程站点)
工程价值: ⭐⭐⭐⭐
核心内容: - vLLM: 通用性最强,模型支持最广,NVIDIA/AMD/TPU+ 多硬件 - SGLang: 高并发+大 MoE 场景最优,RadixAttention 优化共享前缀 - TensorRT-LLM: NVIDIA 最高性能但配置复杂
关键结论: - "For raw single-engine peak performance on NVIDIA hardware, TensorRT-LLM usually wins but is harder to set up" - SGLang 在高并发吞吐量部分场景超越 vLLM
保留理由: 清晰的选型决策树,每个引擎明确标注适用场景,避免泛泛而谈。适合作为工程选型的快速参考。
建议写入: inference-engineering 主题页
3. Jarvis Labs: vLLM vs SGLang vs TensorRT-LLM Benchmark(含真实命令)
来源: Jarvis Labs Blog
URL: https://jarvislabs.ai/blog/vllm-sglang-trtllm-comparison
可信度: 高(含完整 Shell 命令)
工程价值: ⭐⭐⭐⭐⭐
核心内容 - 真实 Benchmark 命令:
TensorRT-LLM Engine Build:
trtllm-build \
--checkpoint_dir ./qwen25_7b_checkpoint \
--output_dir ./qwen25_7b_trt_engine_sharegpt \
--gemm_plugin bfloat16 \
--gpt_attention_plugin bfloat16 \
--max_batch_size 256 \
--max_input_len 4096 \
--max_seq_len 8192 \
--max_num_tokens 32768
TensorRT-LLM Serve:
trtllm-serve serve ./qwen25_7b_trt_engine_sharegpt \
--backend tensorrt \
--tokenizer /home/Qwen/Qwen2.5-7B-Instruct \
--max_batch_size 256 \
--host 0.0.0.0 \
--port 8000
vLLM Benchmark Client:
vllm bench serve \
--model Qwen/Qwen3-30B-A3B \
--base-url <endpoint> \
--dataset-name custom \
--dataset-path ./ruler_16384_1000_vllm.jsonl \
--num-prompts 1000 \
--max-concurrency 60 \
--seed 42 \
--save-result
保留理由: 完整可复现的 TensorRT-LLM engine build + serve + vLLM bench 命令链。实测 Qwen 系列模型在不同引擎下的性能数据。工程实践价值极高。
建议写入: inference-engineering 主题页(命令附录)
4. The AI Engineer: AI Agents Stack 2026 Edition(Substack)
来源: theaiengineer.substack.com
URL: https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
可信度: 高(专注 AI 工程的专业 Newsletter)
工程价值: ⭐⭐⭐⭐
核心洞察: 1. MCP 标准化 改变了 Tools 层,整个 agent 栈被重新划分 2. Reasoning models 让单 call agent 替代了部分 multi-step chains 3. Memory 成为一等公民,不再是 vector DB 的附庸 4. Eval gap: 89% 团队有 observability,但只有 52% 有 evals(37point gap) 5. 新 benchmark: Context-Bench(memory)、Recovery-Bench(error recovery)、Terminal-Bench(coding agents)
保留理由: 清晰的 6 层 agent 栈架构图,工程视角而非学术视角。指出了 eval 缺口这一被忽视的生产级问题。
建议写入: agentic-ai-systems 主题页
5. vLLM GitHub Issues: 真实 CUDA OOM 和错误案例
来源: github.com/vllm-project/vllm
可信度: 高(官方 repo 真实 issue)
工程价值: ⭐⭐⭐
案例 A: Issue #30637 - DeepSeek-V3.2 + DeepGEMM nightly OOM
- 环境: 8x H200, vLLM nightly, DeepGEMM E8M0
- 错误: CUDA out of memory during sampler warmup (_dummy_sampler_run), logits.sort 阶段
- 关键词: DeepGEMM, sampler warmup, vLLM nightly
案例 B: Issue #35706 - H200 MiniMax-M2.5 CUDA illegal memory access
- 环境: H200 TP=4, FP8, vllm/vllm-openai:v0.16.0
- 错误: torch.AcceleratorError: CUDA error: an illegal memory access was encountered
- 堆栈: async_output_busy_loop, enqueue_output, get_output, async_copy_ready_event.synchronize()
案例 C: Issue #32373 - B200 新驱动加载失败 - 环境: NVIDIA B200, Driver 580.105.08, CUDA 13.0 - 错误: vLLM 在新驱动上无法加载
保留理由: 真实生产环境错误日志,包含 GPU 型号、驱动版本、vLLM 版本、错误堆栈。帮助工程师识别类似问题。
建议写入: vllm-troubleshooting 或 inference-engineering 主题页
6. NVIDIA Forum: DGX Spark 多节点 vLLM/SGLang/TensorRT 真实命令
来源: forums.developer.nvidia.com
URL: https://forums.developer.nvidia.com/t/setting-up-vllm-sglang-or-tensorrt-on-two-dgx-sparks/353338
可信度: 高(官方论坛,工程师实操)
工程价值: ⭐⭐⭐
内容摘要: - GLM-4.7-FP8 (355B MoE) on 4x DGX Spark with SGLang + EAGLE Speculative Decoding: 2140 tok/s - Qwen3-Next-80B on DGX Spark 实测 - vLLM on GB10 MXFP4 vs SGLang/llama.cpp 对比 - 真实 vLLM bench 命令示例:
vllm bench serve --backend vllm --model openai/gpt-oss-120b --endpoint /v1/completions --dataset-name sharegpt --dataset-path ShareGPT_V3_unfiltered_cleaned_split.json --num-prompts 1 --port 30000
- 输出包含 TTFT、TPOT、throughput 完整 metrics
保留理由: DGX Spark(GB10)这类边缘 GPU 计算节点的实操数据在中文社区较稀缺,有参考价值。
建议写入: inference-engineering 主题页(硬件配置附录)
丢弃条目(低工程价值)
| 条目 | 丢弃理由 |
|---|---|
| Lyceum vLLM vs TensorRT-LLM Production Benchmark | 内容偏概述,缺乏具体命令或数字,与 #1/#2 高度重复 |
| Cerebrium Llama 3.1 70B TTFT Bench | 数据量少(只有 TTFT 一个指标),且 TTFT 数据(123ms vs 340ms vs 194ms)与其他 benchmark 来源不一致,参考性有限 |
| AI Agent 框架对比(Medium 多篇) | 泛泛而谈的"选型指南",缺乏真实 benchmark 数据,仅搬运概念 |
分类标签
inference-engineering vllm tensorrt-llm sglang benchmark agent-frameworks langgraph crewai production
建议写入路径
/shared/research-kb/inbox/jay/2026-06-21-engineering-inference-agents-round1.md(本文档)- 核心数据建议后续归入主题页:
inference-engineering.md、agentic-ai-systems.md
后续行动
- ⭐ 精读 Jarvis Labs 那篇,含完整可复现命令,考虑拆分为独立 recipe
- ⭐ vLLM GitHub Issues 中 #30637 和 #35706 值得加入 Troubleshooting FAQ
- ⭐ Spheron 的 CPM 表格可以归入成本计算器类工具文档
- 审稿: 确认 #3 中 vLLM bench 命令的 --dataset-path 是否需要提供样例数据格式