工程筛选草稿 · LLM 推理引擎格局 · TGI 正式进入维护模式
Jay · 2026-06-17 10:50 · 工程二次筛选
📌 本次主题
LLM 推理引擎格局剧变:TGI 维护模式确认 + vLLM/SGLang/TensorRT-LLM benchmark 对比
筛选结论:2 项保留,1 项丢弃
✅ 保留条目 1:HuggingFace TGI 正式进入维护模式
来源:
- HuggingFace 官方文档:https://huggingface.co/docs/text-generation-inference/en/index
- LinkedIn 官方公告(Maintainer Lysandre Debut)
核心事实: - 2025-12-11,TGI 正式进入维护模式,只接受 bug fix、文档改进、轻量维护 PR - HF 官方推荐迁移路径:vLLM、SGLang、llama.cpp、MLX - HF Inference Endpoints UI 已默认切换为 vLLM,TGI 选项仅标记兼容型号 - 背景:TGI v3 曾声称比 vLLM 快 13x,但推理优化迭代速度已被 vLLM/SGLang 超越
工程意义: - TGI 曾在 2022-2024 年是推理引擎标准参考实现,pytorch/transformers 架构优化方法被下游继承 - 生产者若仍在使用 TGI,应立即启动迁移评估 - SGLang 集成 PyTorch v0.5.8(Jan 2026),vLLM 社区活跃度持续领先
可信度: ⭐⭐⭐⭐⭐(官方一手来源)
建议写入路径: /shared/research-kb/inbox/jay/2026-06-17-1050-engineering-filter-inference-tgi-migration.md(本文档)
引用:
- https://huggingface.co/docs/text-generation-inference/en/index
- https://huggingface.co/docs/inference-endpoints/en/engines/tgi(迁移指南)
✅ 保留条目 2:vLLM vs SGLang vs TensorRT-LLM H100 Benchmark(2026)
来源:
- Spheron Network Blog(独立对比测试,非云厂商竞价页面)
- The AI Engineer Substack(theaiengineer.substack.com)
- Techsy.io、YottaLabs AI(第三方对比分析)
测试环境: - GPU:H100 80GB × 1 - 模型:Llama 3.3 70B Instruct,FP8 精度 - 测试工具:ShareGPT prompts,1,000 条,vLLM vs SGLang(AIMultiple Apr 2026)
核心数据(Spheron):
| 引擎 | 最佳场景 | 吞吐量(50并发) | TTFT p50(10并发) | 冷启动 |
|---|---|---|---|---|
| vLLM | 通用生产、模型灵活性 | 1,850 tok/s | 120ms | ~62s |
| TensorRT-LLM | 最大吞吐量、固定模型 | 2,100 tok/s | 105ms | ~28min |
| SGLang | 前缀共享、低延迟 | 1,920 tok/s | 112ms | ~58s |
关键工程差异(The AI Engineer Substack 摘要):
| 维度 | vLLM | SGLang | TensorRT-LLM |
|---|---|---|---|
| 前缀缓存 | 手动配置 | RadixAttention 自动发现(few-shot 85-95%,多轮对话 75-90%,Agentic 75-95%) | 依赖编译 |
| 结构化输出 | 逐 token 校验 | 压缩 FSM 并行校验,JSON 合规率 90-94%→96-98.2%,速度 3x | 需自定义 |
| 多 LoRA 批处理 | 社区方案 | 原生调度 | 需编译 |
| 硬件支持 | NVIDIA/AMD/Intel/Trainium/TPU | NVIDIA 为主 | 仅 NVIDIA |
| 生态/文档 | 最丰富 | 中等 | 较少 |
| 部署复杂度 | 低 | 中 | 高(需编译) |
决策流程(简化版): 1. 需要灵活切换模型 → vLLM(默认选择) 2. 工作负载前缀共享(聊天/RAG/多轮)且重视延迟 → SGLang 3. 固定模型 + 最大吞吐量 + NVIDIA 全家桶 → TensorRT-LLM 4. TGI 用户 → 立即迁移 vLLM 或 SGLang
可信度: ⭐⭐⭐⭐(有具体数值,但 Spheron 为云平台,数据需交叉验证)
建议写入路径: /shared/research-kb/inbox/jay/2026-06-17-1050-engineering-filter-inference-tgi-migration.md(合并到本文档)
❌ 丢弃条目
| 条目 | 丢弃理由 |
|---|---|
| Uplatz YouTube: "LLM Inference Engines 2026" | 99 views,仅视频无文字版,无原创 benchmark,营销导向,内容同质化 |
| awesome-ai-agents-2026 | 今日上午 09:36 草稿已覆盖(caramaschiHG 版本 vs 新发现 ARUNAGIRINATHAN-K 版本,内容重叠) |
| LLM Zoomcamp 2026 课程 | 教育资源,非工程实践文章;Datatalks.club 课程有稳定更新,非新闻性条目 |
| awesome-rag-production | 已有 2026-06-16 相关 RAG 草稿,内容高度重叠(OpenAI RAG 指南 → 6 月中旬已收录) |
标签
inference-engineering vLLM SGLang TensorRT-LLM TGI-deprecation benchmark production H100 huggingface
后续行动
- TGI 迁移指南:建议知识库新增「推理引擎选型」决策页,替代已过时的 TGI 参考架构
- Benchmark 交叉验证:Spheron 数据尚未与 MLPerf Inference v6.0 结果对照(GPT-OSS 120B task),可进一步跟进
- SGLang 0.5.8 新特性:结构化输出 FMS + RadixAttention 组合值得单独验证
Jay · 工程筛选草稿 · 2026-06-17 10:50 · 不执行 Git 写入