← 笔记
Jay 2026-06-10

知识库草稿 · LLM推理引擎工程化实践

实例:Jay | 产出时间:2026-06-10 | 主题:推理引擎选型与生产部署(vLLM / SGLang / TensorRT-LLM / Ollama)


📌 本次摘要

本次检索聚焦 LLM推理引擎的技术选型与Benchmark对比,覆盖2026年H100上的主流框架实测数据,以及GitHub官方盘点的新兴开源AI项目(MCP生态、多智能体协作)。与今日 Jay 同批次草稿(LLM微调+RAG)形成互补——前者解决"怎么训练",本文解决"怎么部署推理"。腾讯云/阿里云/火山引擎有系统性中文综述;Spheron/LeetLLM有H100实测对比;GitHub官方博文有MCP生态盘点。


一、高价值条目

1️⃣ Spheron · vLLM vs TensorRT-LLM vs SGLang:H100 Benchmark 2026(⭐⭐⭐⭐⭐ 必读)

  • 链接https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
  • 核心内容
  • 同H100 80GB、Llama 3.3 70B FP8精度下的三框架对比
  • vLLM:生产路径最短,模型更新灵活,并发友好,适合快速迭代场景
  • TensorRT-LLM:NVIDIA深度定制,H100上原生性能最优,适合长期固定模型生产部署
  • SGLang:中高并发场景(batch size 64时达460 tok/s)显著优于vLLM,MoE模型效率突出
  • 三者均支持连续批处理(Continuous Batching)、Paged KV Cache、量化、投机解码(Speculative Decoding)、前缀缓存
  • 关键决策框架快速上线/需灵活换模型 → vLLM 固定模型/极致NVIDIA吞吐 → TensorRT-LLM 高并发/MoE/结构化输出 → SGLang
  • 新增竞争者:Modular MAX(Mojo内核,图编译),Dense模型高并发场景已超vLLM
  • 标签推理引擎 Benchmark H100 vLLM SGLang TensorRT-LLM 2026
  • 建议动作:精读;建议纳入「LLM部署实践」主题页核心参考

2️⃣ LeetLLM · 推理引擎选择指南2026(⭐⭐⭐⭐ 决策框架)

  • 链接https://leetllm.com/blog/llm-inference-engine-comparison-2026
  • 核心内容
  • PagedAttention内存数学原理详解(含实际显存计算示例)
  • H100并发场景下各引擎真实表现(非纸面指标)
  • 决策框架:workload shape(前缀复用率、并发量)比原始吞吐量更重要
  • SGLang在unique prompt高并发场景处于TensorRT-LLM和vLLM之间
  • Ollama:门槛最低但吞吐量垫底,适合本地开发验证
  • :本文重在方法论(如何评估),而非单一结论
  • 标签推理引擎 选型 并发优化 2026
  • 建议动作:审稿;适合作为知识库选型决策参考

3️⃣ GitHub官方 · MCP生态盘点 Top 10开源AI项目(⭐⭐⭐⭐ MCP必读)

  • 链接https://github.blog/open-source/maintainers/from-mcp-to-multi-agents-the-top-10-open-source-ai-projects-on-github-right-now-and-why-they-matter
  • 核心内容:GitHub官方维护者博客,盘点当前MCP生态最具代表性的10个新项目: 1. Open WebUI MCP — AI工具集成简化 2. Unbody — "Supabase of AI",RAG数据管道 3. OWL — 多智能体协作框架(CMU/DeepMind背景) 4. F/mcptools — MCP开发者CLI工具链 5. Nutlope/self.so — AI个人网站生成 6. VoiceStar — TTS精确控制 7. Second-Me — 数字孪生构建 8. SesameAILabs/csm — 语音合成新范式
  • 趋势洞察:MCP是AI集成新前沿;多智能体协作(OWL)成主流;语音生成快速进步
  • 标签MCP 多智能体 工具集成 开源生态 2026
  • 建议动作:关注;可纳入「AI Agent工程化」主题页生态部分

4️⃣ 火山引擎 · LLM推理框架TGI/vLLM/TensorRT-LLM/DS-MII对比(⭐⭐⭐⭐ 中文工程参考)

  • 链接https://developer.volcengine.com/articles/7382253436332408882
  • 平台:火山引擎开发者社区(阿里云生态)
  • 核心内容
  • TGI(HuggingFace官方):一键部署主流开源模型(Llama2/Falcon/StarCoder等),API简单
  • vLLM:PagedAttention杀手锏,A10G上比HF快24倍,比TGI快3.5倍;多GPU支持tensor_parallel_size
  • TensorRT-LLM:FP8/BF16优化,多GPU多节点扩展,支持Triton集成
  • DS-MII(DeepSpeed):PyTorch模型自动替换为优化实现,适合千亿参数大模型
  • 代码示例:各框架最小可运行示例(含多GPU调用代码片段)
  • 复现价值:⭐⭐⭐⭐ 代码块可直接参考
  • 标签推理引擎 vLLM TensorRT-LLM TGI DeepSpeed 中文工程 2025
  • 建议动作:审稿;适合作为「推理框架对比」知识库母本

5️⃣ 腾讯云 · 大模型推理服务全景图(⭐⭐⭐⭐ 全栈视图)

  • 链接https://higress.ai/blog/higress-gvr7dx_awbbpb_vl5iak7vsi3s1kpx
  • 平台:Higress官方博客(阿里云内嵌提及)
  • 核心内容
  • 三层架构梳理:芯片层(NVIDIA/AMD/Groq/昇腾/平头哥/寒武纪/摩尔线程)→框架层(PyTorch/TF/MXNet + vLLM/TensorRT-LLM/llama.cpp/TGI)→平台层(阿里云PAI/百炼/AWS/Groq/Fireworks)
  • 开源生态格局:DeepSeek/Qwen/LLaMA领跑;vLLM的Continuous Batching已普及为行业标准
  • AI原生网关:Higress(Envoy+Istio内核)在AI领域的应用(支撑通义千问APP、百炼API)
  • LLM推理服务新特征:流量不确定、Prompt长度差异大、KV Cache内存管理复杂
  • 国产GPU生态:昇腾/平头哥/摩尔线程/燧原等国产算力在推理侧快速追赶
  • 标签推理架构 全栈 国产GPU AI网关 2026
  • 建议动作:审稿;适合作为知识库「LLM推理全景图」参考

6️⃣ PPIO · 大模型推理成本每年降10倍的秘密(⭐⭐⭐ 推理引擎演进史)

  • 链接https://ppio.com/blogs/post/da-mo-xing-tui-li-cheng-ben-mei-nian-jiang-di-10bei-de-mi-mi-yi-wen-liao-jie-vllm-sglangdeng-zhu-liu-tui-li-yin-qing
  • 核心内容
  • 推理引擎演进时间线:HuggingFace Transformers(2019,最早通用推理)→TGI(2023)→vLLM(2023,分水岭)→TensorRT-LLM(工业级)→llama.cpp(CPU/本地)→SGLang(结构化输出)
  • vLLM贡献的行业标准:Continuous Batching已被TGI和SGLang采纳,成为业界标准
  • 结构化输出的演进路径:OpenAI函数调用→vLLM/TGI跟进→SGLang强化
  • 量化普及:GPTQ/INT8/INT4量化推动推理成本下降
  • 推理成本下降速度远超硬件进步(算法优化贡献超过硬件摩尔定律)
  • 标签推理引擎 历史演进 成本优化 ContinuousBatching 2025
  • 建议动作:关注;适合作为知识库「推理引擎演进」时间线参考

7️⃣ HuggingFace · JFrog Artifactory企业级部署指南(⭐⭐⭐ 企业部署参考)

  • 链接https://huggingface.co/blog/jeffboudier/jfrog-artifactory-june-2026
  • 核心内容(针对2026年6月变化):
  • JFrog Artifactory代理HF Hub的缓存/扫描/治理架构
  • June 2026强制迁移:ML repository新布局(Legacy→ML layout)
  • 代理环境下HTTP 429速率限制的根因(继承HF Hub Identity配置)
  • Xet协议实现不完整(缺失去重)导致存储膨胀近一倍
  • 企业方案:HF Enterprise Plus + Model Gateway
  • :偏企业IT/安全视角,适合有合规要求的团队
  • 标签HuggingFace 企业部署 ModelGateway JFrog 2026
  • 建议动作:关注;如知识库涉及企业AI基础设施可纳入

8️⃣ ByteByteGo · Top AI GitHub仓库2026(⭐⭐⭐ 趋势参考)

  • 链接https://blog.bytebytego.com/p/top-ai-github-repositories-in-2026
  • 核心内容
  • Dify:生产级Agentic Workflow开发平台,工作流构建器+RAG管道+多模型支持+本地/云部署
  • LangChain:多智能体/RAG/对话AI的成熟框架
  • DeepSeek-V3:参数规模与技术报告亮点
  • AI Agentic Workflow Patterns系统性梳理
  • 标签GitHub趋势 Dify LangChain AI工作流 2026
  • 建议动作:关注;Dify作为国产优秀项目值得在知识库中单独收录

二、分类标签汇总

标签 条目数 代表
推理引擎 5 Spheron + LeetLLM + 火山引擎 + PPIO + 腾讯云
vLLM 3 Spheron + 火山引擎 + PPIO
SGLang 2 Spheron + PPIO
TensorRT-LLM 3 Spheron + 火山引擎 + PPIO
Benchmark 1 Spheron(H100实测)
MCP 1 GitHub官方博文
多智能体 2 GitHub官方 + 腾讯云
国产GPU 1 腾讯云全景图
AI网关 1 腾讯云(Higress)
企业部署 1 HF+JFrog指南
成本优化 1 PPIO(推理降本史)
2026 6 多条目

三、建议写入路径

/shared/research-kb/review/jay/
└── 2026-06-10-inference-engineering-draft.md   ← 本草稿(供审稿)

⚠️ 本次不写入 /shared/research-kb/review//published/,仅产出草稿。 GitHub合并由单独同步任务串行处理。


四、后续建议动作

优先级 动作 原因
🔴 精读 Spheron H100 Benchmark(Spheron.network) 2026实测数据,推理引擎选型必备
🟡 审稿 火山引擎四框架对比文 中文工程参考,代码可直接复现
🟡 审稿 腾讯云推理服务全景图 全栈视角,国产GPU生态梳理完整
🟡 审稿 GitHub MCP生态Top 10 AI Agent工具集成必读
🟢 关注 Modular MAX新竞争者 Mojo内核,图编译,推理新路线
🟢 更新 知识库「LLM推理引擎选型」主题页 整合Benchmark结论+决策框架

五、与同期草稿的互补关系

草稿 主题 互补点
2026-06-10-llm-finetuning-rag 微调+RAG 训练侧
2026-06-10-inference-engineering(本文) 推理引擎选型与部署 推理侧

两篇共同构成 "训练→部署"完整知识链,建议合并后在知识库中建立交叉引用。


本草案由 Jay 实例自动产出 · 2026-06-10 · 请人工审稿后合并至知识库主分支