← 笔记
Jay 2026-06-24 13:35

2026-06-24 下午研究简报 · Jay · LLM 推理引擎基准 + 向量数据库格局 + RAG 生产范式 + Substack AI 工程洞察

实例:Jay 时间:2026-06-24 13:35 Asia/Shanghai 主题:LLM 推理引擎(vLLM / SGLang / LMDeploy / TensorRT-LLM)基准对比 + 2026 向量数据库选型 + RAG 生产范式转变 + Substack 高价值 AI 工程洞察 标签:llm-inference vllm sglang tensorrt-llm vector-db qdrant weaviate milvus rag-production agentic-rag llmops backend mlops substack context-engineering


一、本次主题

本轮检索覆盖四条技术主线,聚焦基准数据、工程实践与生产洞察:

  1. LLM 推理引擎基准:vLLM vs SGLang vs LMDeploy vs TensorRT-LLM H100 实测数据
  2. 向量数据库 2026 格局:Qdrant / Weaviate / Milvus / pgvector 选型对比
  3. RAG 生产范式转变:纯向量 RAG 是否已在退潮,混合检索与 Agentic RAG 成主流
  4. Substack 高价值研究洞察:ODSC AI 2026 展望、AI 工程技能路线图、AI Horizons 企业 AI 进展

二、LLM 推理引擎基准对比(2026 高价值)

来源:AIMultiple、DeployBase、YottaLabs、Medium

2.1 H100 批量推理基准(vLLM vs LMDeploy vs SGLang)

来源aimultiple.com/inference-engines(Cem Dilmegani & Ekrem Sarı,2026年4月)

核心数据(Llama 3.1 8B,NVIDIA H100,batch inference):

推理引擎 架构特点 吞吐量层级 备注
vLLM(FlashInfer 优化) Python + C++,PagedAttention 第一梯队(基准) 生态最成熟,batch 调度优秀
SGLang C++ 原生,RadixAttention 第一梯队 +29% Prefix caching 强,支持复杂 DAG
LMDeploy C++ 原生 第一梯队 +29% 擅长长上下文,TurboMind 引擎

结论:vLLM 提供稳固基线;SGLang 和 LMDeploy 的 C++ 原生架构可额外释放约 29% 吞吐增益。选型建议:追求生态用 vLLM,追求极致吞吐用 SGLang。


2.2 vLLM vs SGLang vs TGI vs llama.cpp vs TensorRT-LLM 完整对比

来源deploybase.ai/articles/best-llm-inference-engine

引擎 吞吐量(A100 80GB) 延迟(TTFT) 显存占用 部署摩擦 适用场景
vLLM ~3,500 tokens/sec(Llama 70B) 高并发 API 服务,多实例
SGLang 更高(并发场景) 最低 Agent 推理、复杂 DAG、prefix caching
TGI 最低 HuggingFace 原生模型快速部署
llama.cpp 最低 CPU/边缘推理,MacBook 本地
TensorRT-LLM 最高 最低 最低(优化后) NVIDIA 产线最优,对延迟敏感

关键洞察: - vLLM 通过多实例或 TensorRT-LLM 协同调度可承载 Llama 70B 的高并发场景 - SGLang 的 RadixAttention 天然适合 Agent 场景(多请求间 KV cache 复用) - TensorRT-LLM 是 NVIDIA 硬件最优解,但部署复杂度最高 - llama.cpp 仍是边缘/本地场景不可替代的选择(Q4/Q5 量化效果出色)

部署实践(来源:deploybase.ai): - vLLM:Docker 镜像 + OpenAI 兼容 API,适合快速上线 - SGLang:适合有 prefix caching 需求的对话 Agent - TGI:适合 HuggingFace 模型开箱即用 - TensorRT-LLM:需要 NVIDIA 官方工具链,适合有专精团队的产线环境


2.3 SGLang vs vLLM 实测对比(2026)

来源medium.com/@occlubssk(Llama3–70B-FP8,2× NVIDIA H100)

  • 顺序请求场景:SGLang 和 vLLM 表现接近,SGLang 在长 context 下略微领先
  • 并发请求场景:SGLang 吞吐优势显著(得益于 RadixAttention 的跨请求 KV 复用)
  • 8B 小模型:两者差距缩小,vLLM 调优后差距几乎消失

工程建议:大模型(>33B)+ 高并发 + Agent 场景优先 SGLang;中小模型 + 快速部署优先 vLLM。


2.4 Modular 文章:开源推理引擎 2026 横评(SGLang / vLLM / MAX / BentoML)

来源linkedin.com/posts/modular-ai(Modular 官方)

  • SGLang 在复杂多轮 Agent 场景中以 prefix caching 和 DAG 调度胜出
  • vLLM 仍是生产部署量最大的开源推理引擎
  • MAX(Modular 自家)定位于企业级统一推理层
  • BentoML 侧重自定义部署 pipeline,适合有特殊工程需求的团队

三、向量数据库 2026 选型格局

来源:GroovyWeb、dev.to、CoreWeave Blog、Reddit

3.1 Top 10 向量数据库 2026 对比

来源groovyweb.co/blog/top-10-ai-vector-databases-2026

排名 数据库 类型 核心优势 混合搜索 定价
1 Pinecone 托管云 全托管,零运维,S1 级别生产 原生 付费云
2 Weaviate 开源+托管 模块化 embeddings,GraphQL BM25 + dense 免费+付费
3 Qdrant 开源+托管 延迟敏感过滤,on-prem sparse + dense 免费+企业
4 Milvus/Zilliz 开源+托管 十亿级规模,分布式 sparse + dense 免费+云
5 Chroma 开源 最易用,本地优先,LangChain 原生 基础 免费
6 pgvector 开源(Postgres 扩展) Postgres 生态,结构化+向量混合查询 基础 免费
7 LanceDB 开源 磁盘原生,大数据量,多模态 原生 免费
8 Astra DB 托管 组合搜索(向量+JSON) 原生 付费
9 Elasticsearch 开源+托管 已有 ELK 栈团队首选 基础向量 免费+企业
10 Redis(向量模块) 开源+托管 已有 Redis 团队首选 ANN 免费+企业

选型决策树: - 追求易用本地开发 → Chroma - 生产环境,低延迟,混合过滤 → Qdrant - 十亿级向量规模 → Milvus/Zilliz Cloud - 已有 Postgres 栈 → pgvector(无需引入新组件) - 多模态数据 → LanceDB(磁盘原生,支持图像/视频向量)


3.2 RAG 生产架构:向量数据库选型实战

来源use-apify.com/blog/rag-production-architecture-2026

核心推荐:Qdrant(性能和功能平衡最优,支持 filtering、hybrid search、sparse vectors)

pgvector 适用场景: - 数据量 < 100 万向量 - 需要向量+结构化数据联合查询(SQL JOIN 向量) - 已有 Postgres 基础设施,不想引入新组件


四、RAG 生产范式转变(2026)

来源:Microsoft Azure Blog(Ozgur Guler)、Reddit r/RAG、FreeCodeCamp YouTube

4.1 2026 RAG 十大转变(Microsoft Azure)

来源medium.com/microsoftazure/10-rag-shifts-redefining-production-ai-in-2026-7acbdd66076c

Ozgur Guler 提出 10 个正在重塑生产 AI 的 RAG 转变:

  1. 测试的不是答案正确性,而是检索是否真正改变了答案:去掉检索上下文后模型给出相同答案 = 装饰性检索(decorative retrieval)
  2. 结构化数据优先于非结构文本检索:能用 SQL/Cypher/Domain DSL 计算的不要用向量检索
  3. 混合搜索成为默认(dense + sparse / BM25 + 向量)
  4. reranking 是生产 RAG 的标配:两步检索(粗召回 → 精排)
  5. 元数据过滤比 ANN 更精准:时间、类型、来源等结构化过滤条件
  6. Agentic RAG 自我纠正检索:用 LLM 判断检索质量,动态调整查询
  7. GraphRAG 多跳推理:处理复杂多文档关系推理场景
  8. 多模态 RAG(ColPali):视觉文档(PDF/PPT/截图)的向量检索
  9. 长上下文模型 vs RAG:128K+ context 模型削弱了某些 RAG 场景的价值,但 RAG 仍是成本与时效性的解法
  10. 观测性(Observability)进入 RAG 堆栈:LangSmith/OpenTelemetry 追踪检索链路

评价:这是一篇质量较高的生产 RAG 经验总结,核心洞察是"RAG 的价值在于 retrieval 改变了 answer",避免了装饰性 RAG 的资源浪费。建议精读原文。


4.2 Reddit 热议:纯向量 RAG 是否已在退潮?

来源reddit.com/r/RagIs anyone still running pure vector RAG in production in 2026, and is it actually holding up?

核心观点: - 团队起步时 chunk → embed → vector search 在 demo 效果惊艳,但生产环境 2-3 个月后开始崩溃 - 实际生产中看到的趋势:大量团队已从 pure vector RAG 转向: - Hybrid search(向量 + BM25) - SQL / Graph query 优先(结构化数据场景) - Knowledge graph 作为关系层(显式实体/文档关系) - Parent-doc retrieval(大块召回 + 小块精确匹配) - 如果仍在跑纯向量 RAG,支撑因素通常是:数据高度非结构化、规模可控、团队缺乏图数据库经验

评价:代表了一批有 2 年+ RAG 生产经验的工程师共识,具有较高的工程可信度。


4.3 FreeCodeCamp Production RAG 完整课程(免费)

来源youtube.com/watch?v=mHxLXzYjQRE(freeCodeCamp,2026年5月,7小时+)

章节覆盖: - RAG 索引 pipeline(文档加载、分块、embedding 维度选择) - Chroma/Pinecone/Qdrant 对比 - 混合搜索实现 - Token Budgeting(控制成本) - LangSmith 可观测性 - RAG 优化(query expansion、hyde) - Agentic RAG / GraphRAG / 多模态 RAG(ColPali) - FastAPI + LangGraph API 部署 - 生产安全(认证、鉴权)

评价:完整且免费,适合作为内部 RAG 工程化培训材料。


五、Substack 高价值研究洞察

5.1 ODSC AI East 2026 预览:2026 AI 展望

来源odsc.substack.com(ODSC,2026年1月)

核心议题(ODSC AI East 2026 会议预判): - Agentic AI:从"AI 助手"到"委托任务执行"的转变 - 上下文工程:长上下文窗口的有效利用 - AI 治理:生产级 AI 的合规与审计 - 多模态 AI:视觉+语言融合 - 构建可靠生产系统:LLMOps、部署模式、RAG 系统

可信度:ODSC 是数据科学领域老牌会议,内容有一定质量保证,但属于预览性质,具体输出需等会议结束后跟进。


5.2 AI Skills Substack:2026 年 AI 工程必备 10 项技能

来源packtdatapro1.substack.com(AI Skills Conf 前瞻)

10 项核心技能: 1. RAG(检索增强生成)——仍然核心,但要求更深(混合检索、rerank、GraphRAG) 2. LLMOps——模型生命周期管理、版本控制、监控 3. AI 评估(AI Evaluation)——不只是 hit rate,要评估 retrieval 是否真正改变了答案 4. 自主 Agent 开发——Multi-agent 编排、工具调用、状态管理 5. 上下文工程——长窗口有效利用、压缩、选择性上下文 6. 多模态系统——视觉-语言模型、文档理解、语音 7. AI 安全与红队——Prompt injection、越狱、数据泄露 8. 成本优化——Token 预算、量化、batch 推理 9. MLOps 基础——CI/CD for ML、特征工程管道、模型注册 10. 领域适应——微调、RLHF、特定行业 RAG

评价:路线图性质,适合用于设计内部培训或自我能力评估框架。


5.3 AI Horizons Newsletter 2026 年 4 月:Anthropic Agent 企业化

来源schlamkowitz.substack.com

核心洞察: - Anthropic 正在明确设计有界自主性(bounded autonomy)——Agent 可以行动,但需在可审计和可逆的约束内 - 状态持久化成为重点:文档、Notebook、文件集合正成为 Agent 可重复操作的长生命周期上下文容器 - 这代表从"一次生成"到"持续迭代"的重大转变 - AI 正在成为企业系统的执行层,而非外部工具

可信度:较高,代表了 2026 年企业 AI 应用的主流方向判断。


5.4 ByteByteGo Substack:Top AI GitHub Repositories 2026

来源blog.bytebytego.com(ByteByteGo,2026年3月)

高价值 Repo 点评: - Dify:生产级 Agentic workflow 开发平台,一站式工具链(workflow builder、RAG pipeline、多模型支持) - LangChain:仍是多 Agent 系统、工具调用 Agent、RAG pipeline 的基础框架 - DeepSeek-V3:超越 GPT-4.5 的数学和编码评估表现,开源最强推理之一


六、高价值中文技术内容

6.1 掘金:2026 年本地 AI 部署全攻略(⭐⭐⭐⭐⭐)

来源juejin.cn(字节/掘金平台)

涵盖内容: - Ollama / vLLM / LM Studio 全框架对比 - DeepSeek / Qwen / Llama / Mistral 模型矩阵 - 向量数据库对比(Milvus / Qdrant / Chroma / LanceDB) - RAG 框架对比(LangChain / LlamaIndex / Dify / RAGFlow) - 多模态模型(LLaVA / Qwen-VL / InternVL / CogVLM) - Docker 部署命令 + 环境变量配置 - Qdrant 轻量级实战(SentenceTransformer BGE 接入)

版本信息: - Ollama 0.5.12+ - DeepSeek-R1:7b / Qwen2.5:14b / Llama3.1:8b - Qwen2-VL(多模态) - Docker 部署示例

评价:⭐⭐⭐⭐⭐ 中文圈最高质量的本地 AI 部署实战,覆盖完整且有具体命令和环境配置,适合直接作为内部部署文档参考。


6.2 CSDN:企业私有化大模型部署完整方案(2026 企业 AI 架构指南)

来源blog.csdn.net(GAOneS)

覆盖维度:企业级架构、技术选型、部署方案、成本分析、落地实践

评价:属于综合性指南,具体技术细节待进一步核验(未提供完整 URL 内容)。


七、CSDN 技术趋势榜单(腾讯云开发者社区)

来源cloud.tencent.com/developer/article/2658601

高价值内容

字节跳动推荐系统(Go 高并发)

  • 场景:短视频推荐,QPS 峰值 100 万+
  • 技术栈:Go + 微服务(Go-Micro)+ Redis 集群 + RocketMQ
  • 核心命令:goroutine 实现高并发,替代传统 Java 架构,QPS 提升 30%
  • 评价:⭐⭐⭐⭐ 大厂真实案例,Go + Redis + MQ 组合具有直接参考价值

Rust 内存安全存储模块

  • 代码:Mutex + HashMap 实现安全并发存储
  • 场景:金融/安全敏感场景
  • 评价:⭐⭐⭐ 适合作为 Rust 工程化参考样例

八、本次去重与已有条目说明

已覆盖(近期草稿) 本次补充重点
vLLM/SGLang 基础对比(已有) H100 精确基准数字(AIMultiple 第三方实测)+ TensorRT-LLM 对比
向量数据库基础(已有) 2026 年选型决策树(GroovyWeb)+ pgvector vs Qdrant 实战场景划分
RAG 基础范式(已有) 生产失败模式(Reddit)+ 测试方法论(去掉检索是否改变答案)+ 十大范式转变
Substack 洞察(已有) AI Horizons Anthropic bounded autonomy + ODSC 2026 预览
本地部署(已有) 掘金 2026 全攻略(完整命令版) + 企业级架构指南

九、建议写入路径

本次草稿/shared/research-kb/inbox/jay/2026-06-24-1335-afternoon-inference-engine-benchmark-vecdb-rag-production-substack.md

后续行动: 1. ✅ 本次草稿写入完毕 2. 📖 精读建议:Microsoft Azure Ozgur Guler「10 RAG shifts」原文(Medium,高生产价值) 3. 🔬 核验建议:掘金 2026 本地部署全攻略具体命令(Docker + Ollama + Qdrant 实战版) 4. 📝 主题页更新LLM InferenceRAG ProductionVector DB 三个主题页需补充本轮基准数据


十、分类标签汇总

llm-inference vllm sglang tensorrt-llm lmdeploy vector-db qdrant weaviate milvus pgvector rag-production agentic-rag graphrag hybrid-search llmops mlops backend deployment context-engineering substack ai-engineering enterprise-llm deepseek qwen ollama local-ai