2026-06-24 下午研究简报 · Jay · LLM 推理引擎基准 + 向量数据库格局 + RAG 生产范式 + Substack AI 工程洞察
实例:Jay 时间:2026-06-24 13:35 Asia/Shanghai 主题:LLM 推理引擎(vLLM / SGLang / LMDeploy / TensorRT-LLM)基准对比 + 2026 向量数据库选型 + RAG 生产范式转变 + Substack 高价值 AI 工程洞察 标签:
llm-inferencevllmsglangtensorrt-llmvector-dbqdrantweaviatemilvusrag-productionagentic-ragllmopsbackendmlopssubstackcontext-engineering
一、本次主题
本轮检索覆盖四条技术主线,聚焦基准数据、工程实践与生产洞察:
- LLM 推理引擎基准:vLLM vs SGLang vs LMDeploy vs TensorRT-LLM H100 实测数据
- 向量数据库 2026 格局:Qdrant / Weaviate / Milvus / pgvector 选型对比
- RAG 生产范式转变:纯向量 RAG 是否已在退潮,混合检索与 Agentic RAG 成主流
- Substack 高价值研究洞察:ODSC AI 2026 展望、AI 工程技能路线图、AI Horizons 企业 AI 进展
二、LLM 推理引擎基准对比(2026 高价值)
来源:AIMultiple、DeployBase、YottaLabs、Medium
2.1 H100 批量推理基准(vLLM vs LMDeploy vs SGLang)
来源:aimultiple.com/inference-engines(Cem Dilmegani & Ekrem Sarı,2026年4月)
核心数据(Llama 3.1 8B,NVIDIA H100,batch inference):
| 推理引擎 | 架构特点 | 吞吐量层级 | 备注 |
|---|---|---|---|
| vLLM(FlashInfer 优化) | Python + C++,PagedAttention | 第一梯队(基准) | 生态最成熟,batch 调度优秀 |
| SGLang | C++ 原生,RadixAttention | 第一梯队 +29% | Prefix caching 强,支持复杂 DAG |
| LMDeploy | C++ 原生 | 第一梯队 +29% | 擅长长上下文,TurboMind 引擎 |
结论:vLLM 提供稳固基线;SGLang 和 LMDeploy 的 C++ 原生架构可额外释放约 29% 吞吐增益。选型建议:追求生态用 vLLM,追求极致吞吐用 SGLang。
2.2 vLLM vs SGLang vs TGI vs llama.cpp vs TensorRT-LLM 完整对比
来源:deploybase.ai/articles/best-llm-inference-engine
| 引擎 | 吞吐量(A100 80GB) | 延迟(TTFT) | 显存占用 | 部署摩擦 | 适用场景 |
|---|---|---|---|---|---|
| vLLM | ~3,500 tokens/sec(Llama 70B) | 中 | 中 | 低 | 高并发 API 服务,多实例 |
| SGLang | 更高(并发场景) | 最低 | 中 | 中 | Agent 推理、复杂 DAG、prefix caching |
| TGI | 中 | 中 | 中 | 最低 | HuggingFace 原生模型快速部署 |
| llama.cpp | 低 | 高 | 最低 | 低 | CPU/边缘推理,MacBook 本地 |
| TensorRT-LLM | 最高 | 最低 | 最低(优化后) | 高 | NVIDIA 产线最优,对延迟敏感 |
关键洞察: - vLLM 通过多实例或 TensorRT-LLM 协同调度可承载 Llama 70B 的高并发场景 - SGLang 的 RadixAttention 天然适合 Agent 场景(多请求间 KV cache 复用) - TensorRT-LLM 是 NVIDIA 硬件最优解,但部署复杂度最高 - llama.cpp 仍是边缘/本地场景不可替代的选择(Q4/Q5 量化效果出色)
部署实践(来源:deploybase.ai): - vLLM:Docker 镜像 + OpenAI 兼容 API,适合快速上线 - SGLang:适合有 prefix caching 需求的对话 Agent - TGI:适合 HuggingFace 模型开箱即用 - TensorRT-LLM:需要 NVIDIA 官方工具链,适合有专精团队的产线环境
2.3 SGLang vs vLLM 实测对比(2026)
来源:medium.com/@occlubssk(Llama3–70B-FP8,2× NVIDIA H100)
- 顺序请求场景:SGLang 和 vLLM 表现接近,SGLang 在长 context 下略微领先
- 并发请求场景:SGLang 吞吐优势显著(得益于 RadixAttention 的跨请求 KV 复用)
- 8B 小模型:两者差距缩小,vLLM 调优后差距几乎消失
工程建议:大模型(>33B)+ 高并发 + Agent 场景优先 SGLang;中小模型 + 快速部署优先 vLLM。
2.4 Modular 文章:开源推理引擎 2026 横评(SGLang / vLLM / MAX / BentoML)
来源:linkedin.com/posts/modular-ai(Modular 官方)
- SGLang 在复杂多轮 Agent 场景中以 prefix caching 和 DAG 调度胜出
- vLLM 仍是生产部署量最大的开源推理引擎
- MAX(Modular 自家)定位于企业级统一推理层
- BentoML 侧重自定义部署 pipeline,适合有特殊工程需求的团队
三、向量数据库 2026 选型格局
来源:GroovyWeb、
dev.to、CoreWeave Blog、Reddit
3.1 Top 10 向量数据库 2026 对比
来源:groovyweb.co/blog/top-10-ai-vector-databases-2026
| 排名 | 数据库 | 类型 | 核心优势 | 混合搜索 | 定价 |
|---|---|---|---|---|---|
| 1 | Pinecone | 托管云 | 全托管,零运维,S1 级别生产 | 原生 | 付费云 |
| 2 | Weaviate | 开源+托管 | 模块化 embeddings,GraphQL | BM25 + dense | 免费+付费 |
| 3 | Qdrant | 开源+托管 | 延迟敏感过滤,on-prem | sparse + dense | 免费+企业 |
| 4 | Milvus/Zilliz | 开源+托管 | 十亿级规模,分布式 | sparse + dense | 免费+云 |
| 5 | Chroma | 开源 | 最易用,本地优先,LangChain 原生 | 基础 | 免费 |
| 6 | pgvector | 开源(Postgres 扩展) | Postgres 生态,结构化+向量混合查询 | 基础 | 免费 |
| 7 | LanceDB | 开源 | 磁盘原生,大数据量,多模态 | 原生 | 免费 |
| 8 | Astra DB | 托管 | 组合搜索(向量+JSON) | 原生 | 付费 |
| 9 | Elasticsearch | 开源+托管 | 已有 ELK 栈团队首选 | 基础向量 | 免费+企业 |
| 10 | Redis(向量模块) | 开源+托管 | 已有 Redis 团队首选 | ANN | 免费+企业 |
选型决策树: - 追求易用本地开发 → Chroma - 生产环境,低延迟,混合过滤 → Qdrant - 十亿级向量规模 → Milvus/Zilliz Cloud - 已有 Postgres 栈 → pgvector(无需引入新组件) - 多模态数据 → LanceDB(磁盘原生,支持图像/视频向量)
3.2 RAG 生产架构:向量数据库选型实战
来源:use-apify.com/blog/rag-production-architecture-2026
核心推荐:Qdrant(性能和功能平衡最优,支持 filtering、hybrid search、sparse vectors)
pgvector 适用场景: - 数据量 < 100 万向量 - 需要向量+结构化数据联合查询(SQL JOIN 向量) - 已有 Postgres 基础设施,不想引入新组件
四、RAG 生产范式转变(2026)
来源:Microsoft Azure Blog(Ozgur Guler)、Reddit r/RAG、FreeCodeCamp YouTube
4.1 2026 RAG 十大转变(Microsoft Azure)
来源:medium.com/microsoftazure/10-rag-shifts-redefining-production-ai-in-2026-7acbdd66076c
Ozgur Guler 提出 10 个正在重塑生产 AI 的 RAG 转变:
- 测试的不是答案正确性,而是检索是否真正改变了答案:去掉检索上下文后模型给出相同答案 = 装饰性检索(decorative retrieval)
- 结构化数据优先于非结构文本检索:能用 SQL/Cypher/Domain DSL 计算的不要用向量检索
- 混合搜索成为默认(dense + sparse / BM25 + 向量)
- reranking 是生产 RAG 的标配:两步检索(粗召回 → 精排)
- 元数据过滤比 ANN 更精准:时间、类型、来源等结构化过滤条件
- Agentic RAG 自我纠正检索:用 LLM 判断检索质量,动态调整查询
- GraphRAG 多跳推理:处理复杂多文档关系推理场景
- 多模态 RAG(ColPali):视觉文档(PDF/PPT/截图)的向量检索
- 长上下文模型 vs RAG:128K+ context 模型削弱了某些 RAG 场景的价值,但 RAG 仍是成本与时效性的解法
- 观测性(Observability)进入 RAG 堆栈:LangSmith/OpenTelemetry 追踪检索链路
评价:这是一篇质量较高的生产 RAG 经验总结,核心洞察是"RAG 的价值在于 retrieval 改变了 answer",避免了装饰性 RAG 的资源浪费。建议精读原文。
4.2 Reddit 热议:纯向量 RAG 是否已在退潮?
来源:reddit.com/r/Rag(Is anyone still running pure vector RAG in production in 2026, and is it actually holding up?)
核心观点: - 团队起步时 chunk → embed → vector search 在 demo 效果惊艳,但生产环境 2-3 个月后开始崩溃 - 实际生产中看到的趋势:大量团队已从 pure vector RAG 转向: - Hybrid search(向量 + BM25) - SQL / Graph query 优先(结构化数据场景) - Knowledge graph 作为关系层(显式实体/文档关系) - Parent-doc retrieval(大块召回 + 小块精确匹配) - 如果仍在跑纯向量 RAG,支撑因素通常是:数据高度非结构化、规模可控、团队缺乏图数据库经验
评价:代表了一批有 2 年+ RAG 生产经验的工程师共识,具有较高的工程可信度。
4.3 FreeCodeCamp Production RAG 完整课程(免费)
来源:youtube.com/watch?v=mHxLXzYjQRE(freeCodeCamp,2026年5月,7小时+)
章节覆盖: - RAG 索引 pipeline(文档加载、分块、embedding 维度选择) - Chroma/Pinecone/Qdrant 对比 - 混合搜索实现 - Token Budgeting(控制成本) - LangSmith 可观测性 - RAG 优化(query expansion、hyde) - Agentic RAG / GraphRAG / 多模态 RAG(ColPali) - FastAPI + LangGraph API 部署 - 生产安全(认证、鉴权)
评价:完整且免费,适合作为内部 RAG 工程化培训材料。
五、Substack 高价值研究洞察
5.1 ODSC AI East 2026 预览:2026 AI 展望
来源:odsc.substack.com(ODSC,2026年1月)
核心议题(ODSC AI East 2026 会议预判): - Agentic AI:从"AI 助手"到"委托任务执行"的转变 - 上下文工程:长上下文窗口的有效利用 - AI 治理:生产级 AI 的合规与审计 - 多模态 AI:视觉+语言融合 - 构建可靠生产系统:LLMOps、部署模式、RAG 系统
可信度:ODSC 是数据科学领域老牌会议,内容有一定质量保证,但属于预览性质,具体输出需等会议结束后跟进。
5.2 AI Skills Substack:2026 年 AI 工程必备 10 项技能
来源:packtdatapro1.substack.com(AI Skills Conf 前瞻)
10 项核心技能: 1. RAG(检索增强生成)——仍然核心,但要求更深(混合检索、rerank、GraphRAG) 2. LLMOps——模型生命周期管理、版本控制、监控 3. AI 评估(AI Evaluation)——不只是 hit rate,要评估 retrieval 是否真正改变了答案 4. 自主 Agent 开发——Multi-agent 编排、工具调用、状态管理 5. 上下文工程——长窗口有效利用、压缩、选择性上下文 6. 多模态系统——视觉-语言模型、文档理解、语音 7. AI 安全与红队——Prompt injection、越狱、数据泄露 8. 成本优化——Token 预算、量化、batch 推理 9. MLOps 基础——CI/CD for ML、特征工程管道、模型注册 10. 领域适应——微调、RLHF、特定行业 RAG
评价:路线图性质,适合用于设计内部培训或自我能力评估框架。
5.3 AI Horizons Newsletter 2026 年 4 月:Anthropic Agent 企业化
来源:schlamkowitz.substack.com
核心洞察: - Anthropic 正在明确设计有界自主性(bounded autonomy)——Agent 可以行动,但需在可审计和可逆的约束内 - 状态持久化成为重点:文档、Notebook、文件集合正成为 Agent 可重复操作的长生命周期上下文容器 - 这代表从"一次生成"到"持续迭代"的重大转变 - AI 正在成为企业系统的执行层,而非外部工具
可信度:较高,代表了 2026 年企业 AI 应用的主流方向判断。
5.4 ByteByteGo Substack:Top AI GitHub Repositories 2026
来源:blog.bytebytego.com(ByteByteGo,2026年3月)
高价值 Repo 点评: - Dify:生产级 Agentic workflow 开发平台,一站式工具链(workflow builder、RAG pipeline、多模型支持) - LangChain:仍是多 Agent 系统、工具调用 Agent、RAG pipeline 的基础框架 - DeepSeek-V3:超越 GPT-4.5 的数学和编码评估表现,开源最强推理之一
六、高价值中文技术内容
6.1 掘金:2026 年本地 AI 部署全攻略(⭐⭐⭐⭐⭐)
来源:juejin.cn(字节/掘金平台)
涵盖内容: - Ollama / vLLM / LM Studio 全框架对比 - DeepSeek / Qwen / Llama / Mistral 模型矩阵 - 向量数据库对比(Milvus / Qdrant / Chroma / LanceDB) - RAG 框架对比(LangChain / LlamaIndex / Dify / RAGFlow) - 多模态模型(LLaVA / Qwen-VL / InternVL / CogVLM) - Docker 部署命令 + 环境变量配置 - Qdrant 轻量级实战(SentenceTransformer BGE 接入)
版本信息: - Ollama 0.5.12+ - DeepSeek-R1:7b / Qwen2.5:14b / Llama3.1:8b - Qwen2-VL(多模态) - Docker 部署示例
评价:⭐⭐⭐⭐⭐ 中文圈最高质量的本地 AI 部署实战,覆盖完整且有具体命令和环境配置,适合直接作为内部部署文档参考。
6.2 CSDN:企业私有化大模型部署完整方案(2026 企业 AI 架构指南)
来源:blog.csdn.net(GAOneS)
覆盖维度:企业级架构、技术选型、部署方案、成本分析、落地实践
评价:属于综合性指南,具体技术细节待进一步核验(未提供完整 URL 内容)。
七、CSDN 技术趋势榜单(腾讯云开发者社区)
来源:cloud.tencent.com/developer/article/2658601
高价值内容:
字节跳动推荐系统(Go 高并发)
- 场景:短视频推荐,QPS 峰值 100 万+
- 技术栈:Go + 微服务(Go-Micro)+ Redis 集群 + RocketMQ
- 核心命令:goroutine 实现高并发,替代传统 Java 架构,QPS 提升 30%
- 评价:⭐⭐⭐⭐ 大厂真实案例,Go + Redis + MQ 组合具有直接参考价值
Rust 内存安全存储模块
- 代码:Mutex + HashMap 实现安全并发存储
- 场景:金融/安全敏感场景
- 评价:⭐⭐⭐ 适合作为 Rust 工程化参考样例
八、本次去重与已有条目说明
| 已覆盖(近期草稿) | 本次补充重点 |
|---|---|
| vLLM/SGLang 基础对比(已有) | H100 精确基准数字(AIMultiple 第三方实测)+ TensorRT-LLM 对比 |
| 向量数据库基础(已有) | 2026 年选型决策树(GroovyWeb)+ pgvector vs Qdrant 实战场景划分 |
| RAG 基础范式(已有) | 生产失败模式(Reddit)+ 测试方法论(去掉检索是否改变答案)+ 十大范式转变 |
| Substack 洞察(已有) | AI Horizons Anthropic bounded autonomy + ODSC 2026 预览 |
| 本地部署(已有) | 掘金 2026 全攻略(完整命令版) + 企业级架构指南 |
九、建议写入路径
本次草稿:/shared/research-kb/inbox/jay/2026-06-24-1335-afternoon-inference-engine-benchmark-vecdb-rag-production-substack.md
后续行动:
1. ✅ 本次草稿写入完毕
2. 📖 精读建议:Microsoft Azure Ozgur Guler「10 RAG shifts」原文(Medium,高生产价值)
3. 🔬 核验建议:掘金 2026 本地部署全攻略具体命令(Docker + Ollama + Qdrant 实战版)
4. 📝 主题页更新:LLM Inference、RAG Production、Vector DB 三个主题页需补充本轮基准数据
十、分类标签汇总
llm-inference vllm sglang tensorrt-llm lmdeploy vector-db qdrant weaviate milvus pgvector rag-production agentic-rag graphrag hybrid-search llmops mlops backend deployment context-engineering substack ai-engineering enterprise-llm deepseek qwen ollama local-ai