工程筛选草稿 · LLM 推理引擎格局 · TGI 正式进入维护模式

Jay · 2026-06-17 10:50 · 工程二次筛选

📌 本次主题

LLM 推理引擎格局剧变：TGI 维护模式确认 + vLLM/SGLang/TensorRT-LLM benchmark 对比

筛选结论：2 项保留，1 项丢弃

✅ 保留条目 1：HuggingFace TGI 正式进入维护模式

来源： - HuggingFace 官方文档：https://huggingface.co/docs/text-generation-inference/en/index - LinkedIn 官方公告（Maintainer Lysandre Debut）

核心事实： - 2025-12-11，TGI 正式进入维护模式，只接受 bug fix、文档改进、轻量维护 PR - HF 官方推荐迁移路径：vLLM、SGLang、llama.cpp、MLX - HF Inference Endpoints UI 已默认切换为 vLLM，TGI 选项仅标记兼容型号 - 背景：TGI v3 曾声称比 vLLM 快 13x，但推理优化迭代速度已被 vLLM/SGLang 超越

工程意义： - TGI 曾在 2022-2024 年是推理引擎标准参考实现，pytorch/transformers 架构优化方法被下游继承 - 生产者若仍在使用 TGI，应立即启动迁移评估 - SGLang 集成 PyTorch v0.5.8（Jan 2026），vLLM 社区活跃度持续领先

可信度： ⭐⭐⭐⭐⭐（官方一手来源）

建议写入路径： /shared/research-kb/inbox/jay/2026-06-17-1050-engineering-filter-inference-tgi-migration.md（本文档）

引用： - https://huggingface.co/docs/text-generation-inference/en/index - https://huggingface.co/docs/inference-endpoints/en/engines/tgi（迁移指南）

✅ 保留条目 2：vLLM vs SGLang vs TensorRT-LLM H100 Benchmark（2026）

来源： - Spheron Network Blog（独立对比测试，非云厂商竞价页面） - The AI Engineer Substack（theaiengineer.substack.com） - Techsy.io、YottaLabs AI（第三方对比分析）

测试环境： - GPU：H100 80GB × 1 - 模型：Llama 3.3 70B Instruct，FP8 精度 - 测试工具：ShareGPT prompts，1,000 条，vLLM vs SGLang（AIMultiple Apr 2026）

核心数据（Spheron）：

引擎	最佳场景	吞吐量（50并发）	TTFT p50（10并发）	冷启动
vLLM	通用生产、模型灵活性	1,850 tok/s	120ms	~62s
TensorRT-LLM	最大吞吐量、固定模型	2,100 tok/s	105ms	~28min
SGLang	前缀共享、低延迟	1,920 tok/s	112ms	~58s

关键工程差异（The AI Engineer Substack 摘要）：

维度	vLLM	SGLang	TensorRT-LLM
前缀缓存	手动配置	RadixAttention 自动发现（few-shot 85-95%，多轮对话 75-90%，Agentic 75-95%）	依赖编译
结构化输出	逐 token 校验	压缩 FSM 并行校验，JSON 合规率 90-94%→96-98.2%，速度 3x	需自定义
多 LoRA 批处理	社区方案	原生调度	需编译
硬件支持	NVIDIA/AMD/Intel/Trainium/TPU	NVIDIA 为主	仅 NVIDIA
生态/文档	最丰富	中等	较少
部署复杂度	低	中	高（需编译）

决策流程（简化版）： 1. 需要灵活切换模型 → vLLM（默认选择） 2. 工作负载前缀共享（聊天/RAG/多轮）且重视延迟 → SGLang 3. 固定模型 + 最大吞吐量 + NVIDIA 全家桶 → TensorRT-LLM 4. TGI 用户 → 立即迁移 vLLM 或 SGLang

可信度： ⭐⭐⭐⭐（有具体数值，但 Spheron 为云平台，数据需交叉验证）

建议写入路径： /shared/research-kb/inbox/jay/2026-06-17-1050-engineering-filter-inference-tgi-migration.md（合并到本文档）

❌ 丢弃条目

条目	丢弃理由
Uplatz YouTube: "LLM Inference Engines 2026"	99 views，仅视频无文字版，无原创 benchmark，营销导向，内容同质化
awesome-ai-agents-2026	今日上午 09:36 草稿已覆盖（caramaschiHG 版本 vs 新发现 ARUNAGIRINATHAN-K 版本，内容重叠）
LLM Zoomcamp 2026 课程	教育资源，非工程实践文章；Datatalks.club 课程有稳定更新，非新闻性条目
awesome-rag-production	已有 2026-06-16 相关 RAG 草稿，内容高度重叠（OpenAI RAG 指南 → 6 月中旬已收录）

后续行动

TGI 迁移指南：建议知识库新增「推理引擎选型」决策页，替代已过时的 TGI 参考架构
Benchmark 交叉验证：Spheron 数据尚未与 MLPerf Inference v6.0 结果对照（GPT-OSS 120B task），可进一步跟进
SGLang 0.5.8 新特性：结构化输出 FMS + RadixAttention 组合值得单独验证

Jay · 工程筛选草稿 · 2026-06-17 10:50 · 不执行 Git 写入