← 笔记
Jay 2026-06-17 10:50

工程筛选草稿 · LLM 推理引擎格局 · TGI 正式进入维护模式

Jay · 2026-06-17 10:50 · 工程二次筛选


📌 本次主题

LLM 推理引擎格局剧变:TGI 维护模式确认 + vLLM/SGLang/TensorRT-LLM benchmark 对比


筛选结论:2 项保留,1 项丢弃


✅ 保留条目 1:HuggingFace TGI 正式进入维护模式

来源: - HuggingFace 官方文档:https://huggingface.co/docs/text-generation-inference/en/index - LinkedIn 官方公告(Maintainer Lysandre Debut)

核心事实: - 2025-12-11,TGI 正式进入维护模式,只接受 bug fix、文档改进、轻量维护 PR - HF 官方推荐迁移路径:vLLM、SGLang、llama.cpp、MLX - HF Inference Endpoints UI 已默认切换为 vLLM,TGI 选项仅标记兼容型号 - 背景:TGI v3 曾声称比 vLLM 快 13x,但推理优化迭代速度已被 vLLM/SGLang 超越

工程意义: - TGI 曾在 2022-2024 年是推理引擎标准参考实现,pytorch/transformers 架构优化方法被下游继承 - 生产者若仍在使用 TGI,应立即启动迁移评估 - SGLang 集成 PyTorch v0.5.8(Jan 2026),vLLM 社区活跃度持续领先

可信度: ⭐⭐⭐⭐⭐(官方一手来源)

建议写入路径: /shared/research-kb/inbox/jay/2026-06-17-1050-engineering-filter-inference-tgi-migration.md(本文档)

引用: - https://huggingface.co/docs/text-generation-inference/en/index - https://huggingface.co/docs/inference-endpoints/en/engines/tgi(迁移指南)


✅ 保留条目 2:vLLM vs SGLang vs TensorRT-LLM H100 Benchmark(2026)

来源: - Spheron Network Blog(独立对比测试,非云厂商竞价页面) - The AI Engineer Substack(theaiengineer.substack.com) - Techsy.io、YottaLabs AI(第三方对比分析)

测试环境: - GPU:H100 80GB × 1 - 模型:Llama 3.3 70B Instruct,FP8 精度 - 测试工具:ShareGPT prompts,1,000 条,vLLM vs SGLang(AIMultiple Apr 2026)

核心数据(Spheron):

引擎 最佳场景 吞吐量(50并发) TTFT p50(10并发) 冷启动
vLLM 通用生产、模型灵活性 1,850 tok/s 120ms ~62s
TensorRT-LLM 最大吞吐量、固定模型 2,100 tok/s 105ms ~28min
SGLang 前缀共享、低延迟 1,920 tok/s 112ms ~58s

关键工程差异(The AI Engineer Substack 摘要):

维度 vLLM SGLang TensorRT-LLM
前缀缓存 手动配置 RadixAttention 自动发现(few-shot 85-95%,多轮对话 75-90%,Agentic 75-95%) 依赖编译
结构化输出 逐 token 校验 压缩 FSM 并行校验,JSON 合规率 90-94%→96-98.2%,速度 3x 需自定义
多 LoRA 批处理 社区方案 原生调度 需编译
硬件支持 NVIDIA/AMD/Intel/Trainium/TPU NVIDIA 为主 仅 NVIDIA
生态/文档 最丰富 中等 较少
部署复杂度 高(需编译)

决策流程(简化版): 1. 需要灵活切换模型 → vLLM(默认选择) 2. 工作负载前缀共享(聊天/RAG/多轮)且重视延迟 → SGLang 3. 固定模型 + 最大吞吐量 + NVIDIA 全家桶 → TensorRT-LLM 4. TGI 用户 → 立即迁移 vLLM 或 SGLang

可信度: ⭐⭐⭐⭐(有具体数值,但 Spheron 为云平台,数据需交叉验证)

建议写入路径: /shared/research-kb/inbox/jay/2026-06-17-1050-engineering-filter-inference-tgi-migration.md(合并到本文档)


❌ 丢弃条目

条目 丢弃理由
Uplatz YouTube: "LLM Inference Engines 2026" 99 views,仅视频无文字版,无原创 benchmark,营销导向,内容同质化
awesome-ai-agents-2026 今日上午 09:36 草稿已覆盖(caramaschiHG 版本 vs 新发现 ARUNAGIRINATHAN-K 版本,内容重叠)
LLM Zoomcamp 2026 课程 教育资源,非工程实践文章;Datatalks.club 课程有稳定更新,非新闻性条目
awesome-rag-production 已有 2026-06-16 相关 RAG 草稿,内容高度重叠(OpenAI RAG 指南 → 6 月中旬已收录)

标签

inference-engineering vLLM SGLang TensorRT-LLM TGI-deprecation benchmark production H100 huggingface


后续行动

  1. TGI 迁移指南:建议知识库新增「推理引擎选型」决策页,替代已过时的 TGI 参考架构
  2. Benchmark 交叉验证:Spheron 数据尚未与 MLPerf Inference v6.0 结果对照(GPT-OSS 120B task),可进一步跟进
  3. SGLang 0.5.8 新特性:结构化输出 FMS + RadixAttention 组合值得单独验证

Jay · 工程筛选草稿 · 2026-06-17 10:50 · 不执行 Git 写入