工程实践筛选 · Jay · 2026-06-21 上午

本次主题

LLM Inference Engine 对比 & AI Agent 框架选型工程实践

检索范围

vLLM / SGLang / TensorRT-LLM 生产 benchmark；Agent 框架 LangGraph / CrewAI / AutoGen 工程对比；vLLM GitHub 真实 OOM/错误 issues

高价值条目

1. vLLM vs TensorRT-LLM vs SGLang H100 Benchmark（Spheron, 2026）

来源: Spheron Blog
URL: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
可信度: 高（实测数据，H100 8卡配置）
工程价值: ⭐⭐⭐⭐⭐

核心内容: - 吞吐量对比表（50并发请求）: | Engine | Throughput | TTFT p50 | |--------|------------|-----------| | vLLM | 1,850 tok/s | 120ms | | TensorRT-LLM | 2,100 tok/s | 105ms | | SGLang | 1,920 tok/s | 112ms |

CPM 计算公式: CPM = (GPU $/hr) / (tokens_per_sec × 3600 / 1,000,000)
H100 8卡各引擎 CPM 对比表（Llama 3.1 70B, batch=256）:
A100 80G: ~$1.67/M tokens
H100 SXM5: ~$1.90/M tokens
H200 SXM5: ~$2.80/M tokens
B200 SXM6: ~$3.18/M tokens

保留理由: 真实生产 benchmark 数据，含 TTFT、throughput、CPM 三大核心指标，涵盖主流 4 种 GPU 配置。提供了明确的选型建议：通用场景用 vLLM，固定模型最大吞吐用 TensorRT-LLM，共享前缀/多轮对话用 SGLang。

建议写入: inference-engineering 主题页

2. vLLM vs SGLang vs TensorRT-LLM 详细对比（Inference Engineering, 2026-06-01）

来源: inferenceengineering.tech
URL: https://inferenceengineering.tech/learn/vllm-vs-sglang-vs-tensorrt-llm
可信度: 高（专业工程站点）
工程价值: ⭐⭐⭐⭐

核心内容: - vLLM: 通用性最强，模型支持最广，NVIDIA/AMD/TPU+ 多硬件 - SGLang: 高并发+大 MoE 场景最优，RadixAttention 优化共享前缀 - TensorRT-LLM: NVIDIA 最高性能但配置复杂

关键结论: - "For raw single-engine peak performance on NVIDIA hardware, TensorRT-LLM usually wins but is harder to set up" - SGLang 在高并发吞吐量部分场景超越 vLLM

保留理由: 清晰的选型决策树，每个引擎明确标注适用场景，避免泛泛而谈。适合作为工程选型的快速参考。

建议写入: inference-engineering 主题页

3. Jarvis Labs: vLLM vs SGLang vs TensorRT-LLM Benchmark（含真实命令）

来源: Jarvis Labs Blog
URL: https://jarvislabs.ai/blog/vllm-sglang-trtllm-comparison
可信度: 高（含完整 Shell 命令）
工程价值: ⭐⭐⭐⭐⭐

核心内容 - 真实 Benchmark 命令:

TensorRT-LLM Engine Build:

trtllm-build \
  --checkpoint_dir ./qwen25_7b_checkpoint \
  --output_dir ./qwen25_7b_trt_engine_sharegpt \
  --gemm_plugin bfloat16 \
  --gpt_attention_plugin bfloat16 \
  --max_batch_size 256 \
  --max_input_len 4096 \
  --max_seq_len 8192 \
  --max_num_tokens 32768

TensorRT-LLM Serve:

trtllm-serve serve ./qwen25_7b_trt_engine_sharegpt \
  --backend tensorrt \
  --tokenizer /home/Qwen/Qwen2.5-7B-Instruct \
  --max_batch_size 256 \
  --host 0.0.0.0 \
  --port 8000

vLLM Benchmark Client:

vllm bench serve \
  --model Qwen/Qwen3-30B-A3B \
  --base-url <endpoint> \
  --dataset-name custom \
  --dataset-path ./ruler_16384_1000_vllm.jsonl \
  --num-prompts 1000 \
  --max-concurrency 60 \
  --seed 42 \
  --save-result

保留理由: 完整可复现的 TensorRT-LLM engine build + serve + vLLM bench 命令链。实测 Qwen 系列模型在不同引擎下的性能数据。工程实践价值极高。

建议写入: inference-engineering 主题页（命令附录）

4. The AI Engineer: AI Agents Stack 2026 Edition（Substack）

来源: theaiengineer.substack.com
URL: https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
可信度: 高（专注 AI 工程的专业 Newsletter）
工程价值: ⭐⭐⭐⭐

核心洞察: 1. MCP 标准化 改变了 Tools 层，整个 agent 栈被重新划分 2. Reasoning models 让单 call agent 替代了部分 multi-step chains 3. Memory 成为一等公民，不再是 vector DB 的附庸 4. Eval gap: 89% 团队有 observability，但只有 52% 有 evals（37point gap） 5. 新 benchmark: Context-Bench（memory）、Recovery-Bench（error recovery）、Terminal-Bench（coding agents）

保留理由: 清晰的 6 层 agent 栈架构图，工程视角而非学术视角。指出了 eval 缺口这一被忽视的生产级问题。

建议写入: agentic-ai-systems 主题页

5. vLLM GitHub Issues: 真实 CUDA OOM 和错误案例

来源: github.com/vllm-project/vllm
可信度: 高（官方 repo 真实 issue）
工程价值: ⭐⭐⭐

案例 A: Issue #30637 - DeepSeek-V3.2 + DeepGEMM nightly OOM - 环境: 8x H200, vLLM nightly, DeepGEMM E8M0 - 错误: CUDA out of memory during sampler warmup (_dummy_sampler_run), logits.sort 阶段 - 关键词: DeepGEMM, sampler warmup, vLLM nightly

案例 B: Issue #35706 - H200 MiniMax-M2.5 CUDA illegal memory access - 环境: H200 TP=4, FP8, vllm/vllm-openai:v0.16.0 - 错误: torch.AcceleratorError: CUDA error: an illegal memory access was encountered - 堆栈: async_output_busy_loop, enqueue_output, get_output, async_copy_ready_event.synchronize()

案例 C: Issue #32373 - B200 新驱动加载失败 - 环境: NVIDIA B200, Driver 580.105.08, CUDA 13.0 - 错误: vLLM 在新驱动上无法加载

保留理由: 真实生产环境错误日志，包含 GPU 型号、驱动版本、vLLM 版本、错误堆栈。帮助工程师识别类似问题。

建议写入: vllm-troubleshooting 或 inference-engineering 主题页

6. NVIDIA Forum: DGX Spark 多节点 vLLM/SGLang/TensorRT 真实命令

来源: forums.developer.nvidia.com
URL: https://forums.developer.nvidia.com/t/setting-up-vllm-sglang-or-tensorrt-on-two-dgx-sparks/353338
可信度: 高（官方论坛，工程师实操）
工程价值: ⭐⭐⭐

内容摘要: - GLM-4.7-FP8 (355B MoE) on 4x DGX Spark with SGLang + EAGLE Speculative Decoding: 2140 tok/s - Qwen3-Next-80B on DGX Spark 实测 - vLLM on GB10 MXFP4 vs SGLang/llama.cpp 对比 - 真实 vLLM bench 命令示例:

vllm bench serve --backend vllm --model openai/gpt-oss-120b --endpoint /v1/completions --dataset-name sharegpt --dataset-path ShareGPT_V3_unfiltered_cleaned_split.json --num-prompts 1 --port 30000

输出包含 TTFT、TPOT、throughput 完整 metrics

保留理由: DGX Spark（GB10）这类边缘 GPU 计算节点的实操数据在中文社区较稀缺，有参考价值。

建议写入: inference-engineering 主题页（硬件配置附录）

丢弃条目（低工程价值）

条目	丢弃理由
Lyceum vLLM vs TensorRT-LLM Production Benchmark	内容偏概述，缺乏具体命令或数字，与 #1/#2 高度重复
Cerebrium Llama 3.1 70B TTFT Bench	数据量少（只有 TTFT 一个指标），且 TTFT 数据（123ms vs 340ms vs 194ms）与其他 benchmark 来源不一致，参考性有限
AI Agent 框架对比（Medium 多篇）	泛泛而谈的"选型指南"，缺乏真实 benchmark 数据，仅搬运概念

分类标签

inference-engineering vllm tensorrt-llm sglang benchmark agent-frameworks langgraph crewai production

建议写入路径

/shared/research-kb/inbox/jay/2026-06-21-engineering-inference-agents-round1.md（本文档）
核心数据建议后续归入主题页: inference-engineering.md、agentic-ai-systems.md

后续行动

⭐ 精读 Jarvis Labs 那篇，含完整可复现命令，考虑拆分为独立 recipe
⭐ vLLM GitHub Issues 中 #30637 和 #35706 值得加入 Troubleshooting FAQ
⭐ Spheron 的 CPM 表格可以归入成本计算器类工具文档
审稿: 确认 #3 中 vLLM bench 命令的 --dataset-path 是否需要提供样例数据格式