知识库草稿 · LLM推理引擎工程化实践

实例：Jay | 产出时间：2026-06-10 | 主题：推理引擎选型与生产部署（vLLM / SGLang / TensorRT-LLM / Ollama）

📌 本次摘要

本次检索聚焦 LLM推理引擎的技术选型与Benchmark对比，覆盖2026年H100上的主流框架实测数据，以及GitHub官方盘点的新兴开源AI项目（MCP生态、多智能体协作）。与今日 Jay 同批次草稿（LLM微调+RAG）形成互补——前者解决"怎么训练"，本文解决"怎么部署推理"。腾讯云/阿里云/火山引擎有系统性中文综述；Spheron/LeetLLM有H100实测对比；GitHub官方博文有MCP生态盘点。

一、高价值条目

1️⃣ Spheron · vLLM vs TensorRT-LLM vs SGLang：H100 Benchmark 2026（⭐⭐⭐⭐⭐ 必读）

链接：https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
核心内容：
同H100 80GB、Llama 3.3 70B FP8精度下的三框架对比
vLLM：生产路径最短，模型更新灵活，并发友好，适合快速迭代场景
TensorRT-LLM：NVIDIA深度定制，H100上原生性能最优，适合长期固定模型生产部署
SGLang：中高并发场景（batch size 64时达460 tok/s）显著优于vLLM，MoE模型效率突出
三者均支持连续批处理（Continuous Batching）、Paged KV Cache、量化、投机解码（Speculative Decoding）、前缀缓存
关键决策框架： 快速上线/需灵活换模型 → vLLM 固定模型/极致NVIDIA吞吐 → TensorRT-LLM 高并发/MoE/结构化输出 → SGLang
新增竞争者：Modular MAX（Mojo内核，图编译），Dense模型高并发场景已超vLLM
标签：推理引擎 Benchmark H100 vLLM SGLang TensorRT-LLM 2026
建议动作：精读；建议纳入「LLM部署实践」主题页核心参考

2️⃣ LeetLLM · 推理引擎选择指南2026（⭐⭐⭐⭐ 决策框架）

链接：https://leetllm.com/blog/llm-inference-engine-comparison-2026
核心内容：
PagedAttention内存数学原理详解（含实际显存计算示例）
H100并发场景下各引擎真实表现（非纸面指标）
决策框架：workload shape（前缀复用率、并发量）比原始吞吐量更重要
SGLang在unique prompt高并发场景处于TensorRT-LLM和vLLM之间
Ollama：门槛最低但吞吐量垫底，适合本地开发验证
注：本文重在方法论（如何评估），而非单一结论
标签：推理引擎 选型 并发优化 2026
建议动作：审稿；适合作为知识库选型决策参考

3️⃣ GitHub官方 · MCP生态盘点 Top 10开源AI项目（⭐⭐⭐⭐ MCP必读）

链接：https://github.blog/open-source/maintainers/from-mcp-to-multi-agents-the-top-10-open-source-ai-projects-on-github-right-now-and-why-they-matter
核心内容：GitHub官方维护者博客，盘点当前MCP生态最具代表性的10个新项目： 1. Open WebUI MCP — AI工具集成简化 2. Unbody — "Supabase of AI"，RAG数据管道 3. OWL — 多智能体协作框架（CMU/DeepMind背景） 4. F/mcptools — MCP开发者CLI工具链 5. Nutlope/self.so — AI个人网站生成 6. VoiceStar — TTS精确控制 7. Second-Me — 数字孪生构建 8. SesameAILabs/csm — 语音合成新范式
趋势洞察：MCP是AI集成新前沿；多智能体协作（OWL）成主流；语音生成快速进步
标签：MCP 多智能体 工具集成 开源生态 2026
建议动作：关注；可纳入「AI Agent工程化」主题页生态部分

4️⃣ 火山引擎 · LLM推理框架TGI/vLLM/TensorRT-LLM/DS-MII对比（⭐⭐⭐⭐ 中文工程参考）

链接：https://developer.volcengine.com/articles/7382253436332408882
平台：火山引擎开发者社区（阿里云生态）
核心内容：
TGI（HuggingFace官方）：一键部署主流开源模型（Llama2/Falcon/StarCoder等），API简单
vLLM：PagedAttention杀手锏，A10G上比HF快24倍，比TGI快3.5倍；多GPU支持tensor_parallel_size
TensorRT-LLM：FP8/BF16优化，多GPU多节点扩展，支持Triton集成
DS-MII（DeepSpeed）：PyTorch模型自动替换为优化实现，适合千亿参数大模型
代码示例：各框架最小可运行示例（含多GPU调用代码片段）
复现价值：⭐⭐⭐⭐ 代码块可直接参考
标签：推理引擎 vLLM TensorRT-LLM TGI DeepSpeed 中文工程 2025
建议动作：审稿；适合作为「推理框架对比」知识库母本

5️⃣ 腾讯云 · 大模型推理服务全景图（⭐⭐⭐⭐ 全栈视图）

链接：https://higress.ai/blog/higress-gvr7dx_awbbpb_vl5iak7vsi3s1kpx
平台：Higress官方博客（阿里云内嵌提及）
核心内容：
三层架构梳理：芯片层（NVIDIA/AMD/Groq/昇腾/平头哥/寒武纪/摩尔线程）→框架层（PyTorch/TF/MXNet + vLLM/TensorRT-LLM/llama.cpp/TGI）→平台层（阿里云PAI/百炼/AWS/Groq/Fireworks）
开源生态格局：DeepSeek/Qwen/LLaMA领跑；vLLM的Continuous Batching已普及为行业标准
AI原生网关：Higress（Envoy+Istio内核）在AI领域的应用（支撑通义千问APP、百炼API）
LLM推理服务新特征：流量不确定、Prompt长度差异大、KV Cache内存管理复杂
国产GPU生态：昇腾/平头哥/摩尔线程/燧原等国产算力在推理侧快速追赶
标签：推理架构 全栈 国产GPU AI网关 2026
建议动作：审稿；适合作为知识库「LLM推理全景图」参考

6️⃣ PPIO · 大模型推理成本每年降10倍的秘密（⭐⭐⭐ 推理引擎演进史）

链接：https://ppio.com/blogs/post/da-mo-xing-tui-li-cheng-ben-mei-nian-jiang-di-10bei-de-mi-mi-yi-wen-liao-jie-vllm-sglangdeng-zhu-liu-tui-li-yin-qing
核心内容：
推理引擎演进时间线：HuggingFace Transformers（2019，最早通用推理）→TGI（2023）→vLLM（2023，分水岭）→TensorRT-LLM（工业级）→llama.cpp（CPU/本地）→SGLang（结构化输出）
vLLM贡献的行业标准：Continuous Batching已被TGI和SGLang采纳，成为业界标准
结构化输出的演进路径：OpenAI函数调用→vLLM/TGI跟进→SGLang强化
量化普及：GPTQ/INT8/INT4量化推动推理成本下降
推理成本下降速度远超硬件进步（算法优化贡献超过硬件摩尔定律）
标签：推理引擎 历史演进 成本优化 ContinuousBatching 2025
建议动作：关注；适合作为知识库「推理引擎演进」时间线参考

7️⃣ HuggingFace · JFrog Artifactory企业级部署指南（⭐⭐⭐ 企业部署参考）

链接：https://huggingface.co/blog/jeffboudier/jfrog-artifactory-june-2026
核心内容（针对2026年6月变化）：
JFrog Artifactory代理HF Hub的缓存/扫描/治理架构
June 2026强制迁移：ML repository新布局（Legacy→ML layout）
代理环境下HTTP 429速率限制的根因（继承HF Hub Identity配置）
Xet协议实现不完整（缺失去重）导致存储膨胀近一倍
企业方案：HF Enterprise Plus + Model Gateway
注：偏企业IT/安全视角，适合有合规要求的团队
标签：HuggingFace 企业部署 ModelGateway JFrog 2026
建议动作：关注；如知识库涉及企业AI基础设施可纳入

8️⃣ ByteByteGo · Top AI GitHub仓库2026（⭐⭐⭐ 趋势参考）

链接：https://blog.bytebytego.com/p/top-ai-github-repositories-in-2026
核心内容：
Dify：生产级Agentic Workflow开发平台，工作流构建器+RAG管道+多模型支持+本地/云部署
LangChain：多智能体/RAG/对话AI的成熟框架
DeepSeek-V3：参数规模与技术报告亮点
AI Agentic Workflow Patterns系统性梳理
标签：GitHub趋势 Dify LangChain AI工作流 2026
建议动作：关注；Dify作为国产优秀项目值得在知识库中单独收录

二、分类标签汇总

标签	条目数	代表
`推理引擎`	5	Spheron + LeetLLM + 火山引擎 + PPIO + 腾讯云
`vLLM`	3	Spheron + 火山引擎 + PPIO
`SGLang`	2	Spheron + PPIO
`TensorRT-LLM`	3	Spheron + 火山引擎 + PPIO
`Benchmark`	1	Spheron（H100实测）
`MCP`	1	GitHub官方博文
`多智能体`	2	GitHub官方 + 腾讯云
`国产GPU`	1	腾讯云全景图
`AI网关`	1	腾讯云（Higress）
`企业部署`	1	HF+JFrog指南
`成本优化`	1	PPIO（推理降本史）
`2026`	6	多条目

三、建议写入路径

/shared/research-kb/review/jay/
└── 2026-06-10-inference-engineering-draft.md   ← 本草稿（供审稿）

⚠️ 本次不写入 /shared/research-kb/review/ 或 /published/，仅产出草稿。 GitHub合并由单独同步任务串行处理。

四、后续建议动作

优先级	动作	原因
🔴 精读	Spheron H100 Benchmark（Spheron.network）	2026实测数据，推理引擎选型必备
🟡 审稿	火山引擎四框架对比文	中文工程参考，代码可直接复现
🟡 审稿	腾讯云推理服务全景图	全栈视角，国产GPU生态梳理完整
🟡 审稿	GitHub MCP生态Top 10	AI Agent工具集成必读
🟢 关注	Modular MAX新竞争者	Mojo内核，图编译，推理新路线
🟢 更新	知识库「LLM推理引擎选型」主题页	整合Benchmark结论+决策框架

五、与同期草稿的互补关系

草稿	主题	互补点
`2026-06-10-llm-finetuning-rag`	微调+RAG	训练侧
`2026-06-10-inference-engineering`（本文）	推理引擎选型与部署	推理侧

两篇共同构成 "训练→部署"完整知识链，建议合并后在知识库中建立交叉引用。

本草案由 Jay 实例自动产出 · 2026-06-10 · 请人工审稿后合并至知识库主分支