2026-06-24 下午研究简报 · Jay · LLM 推理引擎基准 + 向量数据库格局 + RAG 生产范式 + Substack AI 工程洞察

实例：Jay 时间：2026-06-24 13:35 Asia/Shanghai 主题：LLM 推理引擎（vLLM / SGLang / LMDeploy / TensorRT-LLM）基准对比 + 2026 向量数据库选型 + RAG 生产范式转变 + Substack 高价值 AI 工程洞察标签：llm-inference vllm sglang tensorrt-llm vector-db qdrant weaviate milvus rag-production agentic-rag llmops backend mlops substack context-engineering

一、本次主题

本轮检索覆盖四条技术主线，聚焦基准数据、工程实践与生产洞察：

LLM 推理引擎基准：vLLM vs SGLang vs LMDeploy vs TensorRT-LLM H100 实测数据
向量数据库 2026 格局：Qdrant / Weaviate / Milvus / pgvector 选型对比
RAG 生产范式转变：纯向量 RAG 是否已在退潮，混合检索与 Agentic RAG 成主流
Substack 高价值研究洞察：ODSC AI 2026 展望、AI 工程技能路线图、AI Horizons 企业 AI 进展

二、LLM 推理引擎基准对比（2026 高价值）

来源：AIMultiple、DeployBase、YottaLabs、Medium

2.1 H100 批量推理基准（vLLM vs LMDeploy vs SGLang）

来源：aimultiple.com/inference-engines（Cem Dilmegani & Ekrem Sarı，2026年4月）

核心数据（Llama 3.1 8B，NVIDIA H100，batch inference）：

推理引擎	架构特点	吞吐量层级	备注
vLLM（FlashInfer 优化）	Python + C++，PagedAttention	第一梯队（基准）	生态最成熟，batch 调度优秀
SGLang	C++ 原生，RadixAttention	第一梯队 +29%	Prefix caching 强，支持复杂 DAG
LMDeploy	C++ 原生	第一梯队 +29%	擅长长上下文，TurboMind 引擎

结论：vLLM 提供稳固基线；SGLang 和 LMDeploy 的 C++ 原生架构可额外释放约 29% 吞吐增益。选型建议：追求生态用 vLLM，追求极致吞吐用 SGLang。

2.2 vLLM vs SGLang vs TGI vs llama.cpp vs TensorRT-LLM 完整对比

来源：deploybase.ai/articles/best-llm-inference-engine

引擎	吞吐量（A100 80GB）	延迟（TTFT）	显存占用	部署摩擦	适用场景
vLLM	~3,500 tokens/sec（Llama 70B）	中	中	低	高并发 API 服务，多实例
SGLang	更高（并发场景）	最低	中	中	Agent 推理、复杂 DAG、prefix caching
TGI	中	中	中	最低	HuggingFace 原生模型快速部署
llama.cpp	低	高	最低	低	CPU/边缘推理，MacBook 本地
TensorRT-LLM	最高	最低	最低（优化后）	高	NVIDIA 产线最优，对延迟敏感

关键洞察： - vLLM 通过多实例或 TensorRT-LLM 协同调度可承载 Llama 70B 的高并发场景 - SGLang 的 RadixAttention 天然适合 Agent 场景（多请求间 KV cache 复用） - TensorRT-LLM 是 NVIDIA 硬件最优解，但部署复杂度最高 - llama.cpp 仍是边缘/本地场景不可替代的选择（Q4/Q5 量化效果出色）

部署实践（来源：deploybase.ai）： - vLLM：Docker 镜像 + OpenAI 兼容 API，适合快速上线 - SGLang：适合有 prefix caching 需求的对话 Agent - TGI：适合 HuggingFace 模型开箱即用 - TensorRT-LLM：需要 NVIDIA 官方工具链，适合有专精团队的产线环境

2.3 SGLang vs vLLM 实测对比（2026）

来源：medium.com/@occlubssk（Llama3–70B-FP8，2× NVIDIA H100）

顺序请求场景：SGLang 和 vLLM 表现接近，SGLang 在长 context 下略微领先
并发请求场景：SGLang 吞吐优势显著（得益于 RadixAttention 的跨请求 KV 复用）
8B 小模型：两者差距缩小，vLLM 调优后差距几乎消失

工程建议：大模型（>33B）+ 高并发 + Agent 场景优先 SGLang；中小模型 + 快速部署优先 vLLM。

2.4 Modular 文章：开源推理引擎 2026 横评（SGLang / vLLM / MAX / BentoML）

来源：linkedin.com/posts/modular-ai（Modular 官方）

SGLang 在复杂多轮 Agent 场景中以 prefix caching 和 DAG 调度胜出
vLLM 仍是生产部署量最大的开源推理引擎
MAX（Modular 自家）定位于企业级统一推理层
BentoML 侧重自定义部署 pipeline，适合有特殊工程需求的团队

三、向量数据库 2026 选型格局

来源：GroovyWeb、dev.to、CoreWeave Blog、Reddit

3.1 Top 10 向量数据库 2026 对比

来源：groovyweb.co/blog/top-10-ai-vector-databases-2026

排名	数据库	类型	核心优势	混合搜索	定价
1	Pinecone	托管云	全托管，零运维，S1 级别生产	原生	付费云
2	Weaviate	开源+托管	模块化 embeddings，GraphQL	BM25 + dense	免费+付费
3	Qdrant	开源+托管	延迟敏感过滤，on-prem	sparse + dense	免费+企业
4	Milvus/Zilliz	开源+托管	十亿级规模，分布式	sparse + dense	免费+云
5	Chroma	开源	最易用，本地优先，LangChain 原生	基础	免费
6	pgvector	开源（Postgres 扩展）	Postgres 生态，结构化+向量混合查询	基础	免费
7	LanceDB	开源	磁盘原生，大数据量，多模态	原生	免费
8	Astra DB	托管	组合搜索（向量+JSON）	原生	付费
9	Elasticsearch	开源+托管	已有 ELK 栈团队首选	基础向量	免费+企业
10	Redis（向量模块）	开源+托管	已有 Redis 团队首选	ANN	免费+企业

选型决策树： - 追求易用本地开发 → Chroma - 生产环境，低延迟，混合过滤 → Qdrant - 十亿级向量规模 → Milvus/Zilliz Cloud - 已有 Postgres 栈 → pgvector（无需引入新组件） - 多模态数据 → LanceDB（磁盘原生，支持图像/视频向量）

3.2 RAG 生产架构：向量数据库选型实战

来源：use-apify.com/blog/rag-production-architecture-2026

核心推荐：Qdrant（性能和功能平衡最优，支持 filtering、hybrid search、sparse vectors）

pgvector 适用场景： - 数据量 < 100 万向量 - 需要向量+结构化数据联合查询（SQL JOIN 向量） - 已有 Postgres 基础设施，不想引入新组件

四、RAG 生产范式转变（2026）

来源：Microsoft Azure Blog（Ozgur Guler）、Reddit r/RAG、FreeCodeCamp YouTube

4.1 2026 RAG 十大转变（Microsoft Azure）

来源：medium.com/microsoftazure/10-rag-shifts-redefining-production-ai-in-2026-7acbdd66076c

Ozgur Guler 提出 10 个正在重塑生产 AI 的 RAG 转变：

测试的不是答案正确性，而是检索是否真正改变了答案：去掉检索上下文后模型给出相同答案 = 装饰性检索（decorative retrieval）
结构化数据优先于非结构文本检索：能用 SQL/Cypher/Domain DSL 计算的不要用向量检索
混合搜索成为默认（dense + sparse / BM25 + 向量）
reranking 是生产 RAG 的标配：两步检索（粗召回 → 精排）
元数据过滤比 ANN 更精准：时间、类型、来源等结构化过滤条件
Agentic RAG 自我纠正检索：用 LLM 判断检索质量，动态调整查询
GraphRAG 多跳推理：处理复杂多文档关系推理场景
多模态 RAG（ColPali）：视觉文档（PDF/PPT/截图）的向量检索
长上下文模型 vs RAG：128K+ context 模型削弱了某些 RAG 场景的价值，但 RAG 仍是成本与时效性的解法
观测性（Observability）进入 RAG 堆栈：LangSmith/OpenTelemetry 追踪检索链路

评价：这是一篇质量较高的生产 RAG 经验总结，核心洞察是"RAG 的价值在于 retrieval 改变了 answer"，避免了装饰性 RAG 的资源浪费。建议精读原文。

4.2 Reddit 热议：纯向量 RAG 是否已在退潮？

来源：reddit.com/r/Rag（Is anyone still running pure vector RAG in production in 2026, and is it actually holding up?）

核心观点： - 团队起步时 chunk → embed → vector search 在 demo 效果惊艳，但生产环境 2-3 个月后开始崩溃 - 实际生产中看到的趋势：大量团队已从 pure vector RAG 转向： - Hybrid search（向量 + BM25） - SQL / Graph query 优先（结构化数据场景） - Knowledge graph 作为关系层（显式实体/文档关系） - Parent-doc retrieval（大块召回 + 小块精确匹配） - 如果仍在跑纯向量 RAG，支撑因素通常是：数据高度非结构化、规模可控、团队缺乏图数据库经验

评价：代表了一批有 2 年+ RAG 生产经验的工程师共识，具有较高的工程可信度。

4.3 FreeCodeCamp Production RAG 完整课程（免费）

来源：youtube.com/watch?v=mHxLXzYjQRE（freeCodeCamp，2026年5月，7小时+）

章节覆盖： - RAG 索引 pipeline（文档加载、分块、embedding 维度选择） - Chroma/Pinecone/Qdrant 对比 - 混合搜索实现 - Token Budgeting（控制成本） - LangSmith 可观测性 - RAG 优化（query expansion、hyde） - Agentic RAG / GraphRAG / 多模态 RAG（ColPali） - FastAPI + LangGraph API 部署 - 生产安全（认证、鉴权）

评价：完整且免费，适合作为内部 RAG 工程化培训材料。

五、Substack 高价值研究洞察

5.1 ODSC AI East 2026 预览：2026 AI 展望

来源：odsc.substack.com（ODSC，2026年1月）

核心议题（ODSC AI East 2026 会议预判）： - Agentic AI：从"AI 助手"到"委托任务执行"的转变 - 上下文工程：长上下文窗口的有效利用 - AI 治理：生产级 AI 的合规与审计 - 多模态 AI：视觉+语言融合 - 构建可靠生产系统：LLMOps、部署模式、RAG 系统

可信度：ODSC 是数据科学领域老牌会议，内容有一定质量保证，但属于预览性质，具体输出需等会议结束后跟进。

5.2 AI Skills Substack：2026 年 AI 工程必备 10 项技能

来源：packtdatapro1.substack.com（AI Skills Conf 前瞻）

10 项核心技能： 1. RAG（检索增强生成）——仍然核心，但要求更深（混合检索、rerank、GraphRAG） 2. LLMOps——模型生命周期管理、版本控制、监控 3. AI 评估（AI Evaluation）——不只是 hit rate，要评估 retrieval 是否真正改变了答案 4. 自主 Agent 开发——Multi-agent 编排、工具调用、状态管理 5. 上下文工程——长窗口有效利用、压缩、选择性上下文 6. 多模态系统——视觉-语言模型、文档理解、语音 7. AI 安全与红队——Prompt injection、越狱、数据泄露 8. 成本优化——Token 预算、量化、batch 推理 9. MLOps 基础——CI/CD for ML、特征工程管道、模型注册 10. 领域适应——微调、RLHF、特定行业 RAG

评价：路线图性质，适合用于设计内部培训或自我能力评估框架。

来源：schlamkowitz.substack.com

核心洞察： - Anthropic 正在明确设计有界自主性（bounded autonomy）——Agent 可以行动，但需在可审计和可逆的约束内 - 状态持久化成为重点：文档、Notebook、文件集合正成为 Agent 可重复操作的长生命周期上下文容器 - 这代表从"一次生成"到"持续迭代"的重大转变 - AI 正在成为企业系统的执行层，而非外部工具

可信度：较高，代表了 2026 年企业 AI 应用的主流方向判断。

5.4 ByteByteGo Substack：Top AI GitHub Repositories 2026

来源：blog.bytebytego.com（ByteByteGo，2026年3月）

高价值 Repo 点评： - Dify：生产级 Agentic workflow 开发平台，一站式工具链（workflow builder、RAG pipeline、多模型支持） - LangChain：仍是多 Agent 系统、工具调用 Agent、RAG pipeline 的基础框架 - DeepSeek-V3：超越 GPT-4.5 的数学和编码评估表现，开源最强推理之一

六、高价值中文技术内容

6.1 掘金：2026 年本地 AI 部署全攻略（⭐⭐⭐⭐⭐）

来源：juejin.cn（字节/掘金平台）

涵盖内容： - Ollama / vLLM / LM Studio 全框架对比 - DeepSeek / Qwen / Llama / Mistral 模型矩阵 - 向量数据库对比（Milvus / Qdrant / Chroma / LanceDB） - RAG 框架对比（LangChain / LlamaIndex / Dify / RAGFlow） - 多模态模型（LLaVA / Qwen-VL / InternVL / CogVLM） - Docker 部署命令 + 环境变量配置 - Qdrant 轻量级实战（SentenceTransformer BGE 接入）

版本信息： - Ollama 0.5.12+ - DeepSeek-R1:7b / Qwen2.5:14b / Llama3.1:8b - Qwen2-VL（多模态） - Docker 部署示例

评价：⭐⭐⭐⭐⭐ 中文圈最高质量的本地 AI 部署实战，覆盖完整且有具体命令和环境配置，适合直接作为内部部署文档参考。

6.2 CSDN：企业私有化大模型部署完整方案（2026 企业 AI 架构指南）

来源：blog.csdn.net（GAOneS）

覆盖维度：企业级架构、技术选型、部署方案、成本分析、落地实践

评价：属于综合性指南，具体技术细节待进一步核验（未提供完整 URL 内容）。

七、CSDN 技术趋势榜单（腾讯云开发者社区）

来源：cloud.tencent.com/developer/article/2658601

高价值内容：

字节跳动推荐系统（Go 高并发）

场景：短视频推荐，QPS 峰值 100 万+
技术栈：Go + 微服务（Go-Micro）+ Redis 集群 + RocketMQ
核心命令：goroutine 实现高并发，替代传统 Java 架构，QPS 提升 30%
评价：⭐⭐⭐⭐ 大厂真实案例，Go + Redis + MQ 组合具有直接参考价值

Rust 内存安全存储模块

代码：Mutex + HashMap 实现安全并发存储
场景：金融/安全敏感场景
评价：⭐⭐⭐ 适合作为 Rust 工程化参考样例

八、本次去重与已有条目说明

已覆盖（近期草稿）	本次补充重点
vLLM/SGLang 基础对比（已有）	H100 精确基准数字（AIMultiple 第三方实测）+ TensorRT-LLM 对比
向量数据库基础（已有）	2026 年选型决策树（GroovyWeb）+ pgvector vs Qdrant 实战场景划分
RAG 基础范式（已有）	生产失败模式（Reddit）+ 测试方法论（去掉检索是否改变答案）+ 十大范式转变
Substack 洞察（已有）	AI Horizons Anthropic bounded autonomy + ODSC 2026 预览
本地部署（已有）	掘金 2026 全攻略（完整命令版） + 企业级架构指南

九、建议写入路径

本次草稿：/shared/research-kb/inbox/jay/2026-06-24-1335-afternoon-inference-engine-benchmark-vecdb-rag-production-substack.md

后续行动： 1. ✅ 本次草稿写入完毕 2. 📖 精读建议：Microsoft Azure Ozgur Guler「10 RAG shifts」原文（Medium，高生产价值） 3. 🔬 核验建议：掘金 2026 本地部署全攻略具体命令（Docker + Ollama + Qdrant 实战版） 4. 📝 主题页更新：LLM Inference、RAG Production、Vector DB 三个主题页需补充本轮基准数据

十、分类标签汇总

llm-inference vllm sglang tensorrt-llm lmdeploy vector-db qdrant weaviate milvus pgvector rag-production agentic-rag graphrag hybrid-search llmops mlops backend deployment context-engineering substack ai-engineering enterprise-llm deepseek qwen ollama local-ai