知识库简报 · Jay · 2026-06-18 下午 5:35 UTC+8

本次主题： MCP 2026 路线图企业级更新 · Kubernetes DRA GPU 调度 KubeCon 新进展 · 推理引擎格局 vLLM MRV2/Modular MAX · pgvector + pgai 生产成熟度 · ByteByteGo AI Agent 工程栈

📌 分类标签

MCP Kubernetes GPU-Scheduling DRA LLM-Inference vLLM SGLang TensorRT-LLM Modular-MAX pgvector pgai RAG ByteByteGo KubeCon Enterprise-AI Agent-Stack

一、MCP 2026 路线图：SDK v2 / Triggers / Enterprise Auth

🟢 保留 1：MCP Creator 披露 2026 路线图（KubeCon / Agentic AI Foundation Keynote）

来源： YouTube · Agentic AI Foundation（2026-04-13，David Soria Parra，MCP 联创 & Anthropic M Staff）
URL： https://www.youtube.com/watch?v=kAVRFYgCPg0
作者： David Soria Parra（Anthropic MCP 联创）
发布时间： 2026-04-13
类型： Protocol Roadmap / Ecosystem
核心数据：
MCP SDK 月下载量 1.1 亿次（超越 React 前 3 年增速，16 个月内达成）
企业落地：Salesforce CRM、Jira、Snowflake、企业内部 Wiki（都是大规模真实部署）
2026 路线图核心更新（5 项关键功能）：

Tasks 原语（Long-Running Tasks）：支持自主 Agent 长任务编排通信，解决 MCP 仅能做单次工具调用的局限
Triggers：Webhooks for MCP——Server 可主动向 Client 推送数据通知，取代轮询
Native Streaming：增量式工具结果流式返回（解决工具结果必须完整返回再解析的延迟问题）
Skills Over MCP：将领域知识与 MCP Server 打包，Agent 自动理解工具使用方式（解决工具调用上下文膨胀问题）
Cross-App Access：与身份提供商直接对话，替换企业内 OAuth 跳转流程

SDK v2 重写：Python & TypeScript SDK 全新 API 设计（更好的人体工学），即将发布
Context Bloat 解决方案：渐进式工具发现（progressive discovery）+ 工具搜索（tool search），取代全量工具清单下发
MCP 捐赠 CNCF：Anthropic 将 MCP 协议移交 Linux Foundation / Agentic AI Foundation 管理
Transport 演进：当前 Streamable HTTP 将升级为无状态设计，面向超大规模部署
工程价值： 极高——这是 MCP 正式迈向企业生产的关键节点，Tasks/Triggers/Skills 三项直接改变 Agent 工程架构
可信度： 高——MCP 联创亲自披露，Agentic AI Foundation（Linux Foundation 子项目）背书
后续行动： 跟进 Agentic AI Foundation MCP 2026 路线图 WorkOS 原文（https://workos.com/blog/2026-mcp-roadmap-enterprise-readiness）；评估 Skills 原语对 Agent 工具编排的架构影响

🟢 保留 2：Best MCP Gateways for AI Agents 2026 — Bifrost / 企业级工具治理

来源： DEV Community · kuldeep_paul（2026）
URL： https://dev.to/kuldeep_paul/best-mcp-gateways-for-ai-agents-in-2026-29c7
发布时间： 2026
类型： Gateway 选型 / 企业架构
核心内容：
MCP Gateway 定位：AI Agent 与工具之间的集中控制平面（鉴权、治理、审计）
Gartner 预测（2026）：多数 API Gateway 厂商将在 2026 年集成 MCP 能力
Bifrost（开源，Go）：LLM 路由 + MCP Gateway 二合一，适合生产 AI Agent 需要统一模型路由+工具治理的场景
MCP 正在从"开发者工具协议"演化为"企业 AI 集成总线"
工程价值： 高——企业落地 MCP 时，Gateway 层是必须考虑的治理和安全架构组件
可信度： 中——技术分析文章，Gateway 选型需结合实际部署环境验证
后续行动： 纳入 MCP 企业落地架构参考；Bifrost GitHub 实际功能需核验

二、Kubernetes GPU 调度：KubeCon Europe 2026 DRA + KAI Scheduler

🟢 保留 3：KubeCon Europe 2026 — NVIDIA DRA Driver 捐赠 CNCF

来源： Spheron Network（2026-06）
URL： https://www.spheron.network/blog/kubernetes-gpu-orchestration-2026
发布时间： 2026-06（KubeCon Europe 2026 之后）
类型： Kubernetes GPU 调度 / 标准演进
核心事件：
NVIDIA 在 KubeCon EU 2026 将 Dynamic Resource Allocation（DRA）Driver 捐赠给 CNCF
这是 Kubernetes GPU 调度史上最重要的事件之一——DRA 取代 decade-old NVIDIA device plugin
DRA vs 旧模型对比：
旧模型：nvidia.com/gpu: 1 整数请求，无法表达 GPU 拓扑、显存、算力
DRA：结构化资源参数（structured parameters），调度器可真正推理 GPU 资源
实际意义：多租户 GPU 集群、分数 GPU 分配、拓扑感知调度成为可能
配套工具链：
KAI Scheduler：多租户优先级调度（替代原生 Kubernetes 调度器对 GPU 场景的不足）
Grove：声明式推理 workload 管理（InferenceProfile CRD）
工程价值： 极高——这是 Kubernetes GPU 调度范式切换节点；平台工程师必须理解 DRA 模型
可信度： 中高——KubeCon 官方事件，具体 API 细节需参考 CNCF KEP-4381 DRA 文档
后续行动： 阅读 KubeCon DRA session 视频；对比 DRA vs gang scheduling 对训练 vs 推理场景的适用性

🟢 保留 4：Kubernetes AI Infrastructure 2026 — GPU Scheduling & Production Realities

来源： CloudOptimo Blog（2026）
URL： https://www.cloudoptimo.com/blog/kubernetes-ai-infrastructure-in-2026-gpu-scheduling-and-production-realities
发布时间： 2026
类型： 架构参考 / 生产实践
核心内容（生产 Kubernetes AI Stack 参考架构）：
KubeRay：分布式训练协调（Ray + Kubernetes 集成事实标准）
GPU 调度痛点：默认 Kubernetes 调度器无法处理 GPU 拓扑、显存碎片、多租户隔离
多租户设计：node taints + node selectors + GKE ProvisioningRequest（动态扩缩）
DRA 资源分配：基于 CNCF KEP-4381，Kubernetes 终于有了可表达 GPU 资源的 API
推理 Serving：vLLM / SGLang on Kubernetes + KServe / Triton Inference Server
CAST AI 2026 数据：K8s 平均 CPU 利用率仅 8%（2025 年），GPU 利用率更低（<20-30%）
工程价值： 高——提供了完整的生产 K8s AI Stack 各层组件地图；从训练到推理全覆盖
可信度： 中高——技术博客，具体数字来自 CAST AI 2026 报告（https://cast.ai/reports/kubernetes-optimization-report）
后续行动： CAST AI Kubernetes Optimization Report 2026 全文值得精读；纳入 Kubernetes AI Platform 选型参考

🟢 保留 5：AI Infra for Production — Kubernetes GPU 资源管理结构性缺陷

来源： ScaleOps Blog（2026）
URL： https://scaleops.com/blog/ai-infra-for-production-why-gpu-resource-management-in-kubernetes-demands-a-new-approach
发布时间： 2026
类型： 架构批判 / 产品视角
核心观点：
Kubernetes 原语无法反映 AI 工作负载实际消耗 GPU 的方式
原因：GPU 利用率 20-30% 是常态，因为 K8s 无法做应用感知的连续 GPU 碎片整合
ScaleOps AI Infra：continuous GPU rightsizing + fractional GPU allocation（需要商业产品，但思路有参考价值）
解决思路：应用层自动化（知道推理吞吐特征）vs K8s 调度层（只知道资源请求）
工程价值： 中高——批判性分析，对理解 K8s GPU 调度深层问题有启发，但产品导向明显
可信度： 中——产品类博客，但核心观点（K8s GPU 利用率低）与 CAST AI 数据一致
后续行动： 作为 Kubernetes GPU 调度问题深度分析存档；不必精读产品细节

三、LLM 推理引擎格局（2026-06 更新）

🟢 保留 6：vLLM vs SGLang vs TensorRT-LLM — H100 Benchmark（2026-06 更新）

来源： Spheron Network（2026-06）
URL： https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
发布时间： 2026-06
类型： 基准测试 / 选型对比
核心数据：
vLLM MRV2（Model Runner V2）：GB200 上吞吐量提升 56%（vs legacy runner；H100 数据不同）
SGLang + TRT-LLM DSA：DeepSeek V3.2 + Blackwell 组合，通过 --nsa-prefill-backend trtllm + --nsa-decode-backend trtllm 实现 3x-5x speedup
Modular MAX（Mojo 内核）：新兴竞品，图编译 Mojo 内核在 dense model 高并发场景超越 vLLM
新模型支持扩展：Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5 均已在 SGLang latest 支持
NVIDIA NIM：Turnkey 容器方案，Engine + Weights + API 一体化，零 TRT-LLM 手动编译
2026 选型参考：
高吞吐量离线 Batch → vLLM MRV2
结构化 Agent 流水线 / 多步生成 → SGLang（原生 pipeline 描述）
低延迟实时推理（已知模型） → TensorRT-LLM
新兴探索 / dense model 高并发 → Modular MAX
工程价值： 极高——提供了 2026-06 最新 benchmark 数据和引擎演进动态
可信度： 中高——第三方测试，需结合自身模型和硬件实测
后续行动： Modular MAX vs vLLM 部署指南（同一来源）值得进一步精读；Kimi-K2.5 在 SGLang 的实测数据待官方发布

🟢 保留 7：vLLM vs SGLang 2026 — 深度架构与成本对比

来源： Yotta Labs（2026）
URL： https://www.yottalabs.ai/post/vllm-vs-sglang-which-inference-engine-should-you-use-in-2026
发布时间： 2026
类型： 深度对比 / 工程选型
核心洞察：
SGLang 的核心差异化：不是性能竞赛，而是结构化生成——多步程序化生成流水线（Agent 场景）、chain-of-thought tracing、constrained decoding 原生支持
vLLM 的核心差异化：PagedAttention + 极致吞吐量，适合纯 API Serving 场景
Agent 架构建议：在 SGLang 之上构建 agent 逻辑，因为 pipeline 描述可直接对应 agent state machine
架构建议：推理引擎只是整个系统中的一层；GPU 分配、网络、编排的设计对 Agent 类变长推理负载影响更大
工程价值： 高——SGLang vs vLLM 不只是性能数字，而是场景哲学差异；为 Agent 架构选型提供判断框架
可信度： 中高——技术分析，与其他来源数据基本吻合
后续行动： 纳入推理引擎选型决策树；SGLang 结构化生成流水线文档值得精读

🟢 保留 8：TokenSpeed — 新型推理引擎（GB10 / DGX Spark）

来源： NVIDIA Developer Forums（2026-05/06）
URL： https://forums.developer.nvidia.com/t/tokenspeed-as-alternative-to-vllm/369218
发布时间： 2026-05
类型： 新兴引擎 / 边缘部署
核心内容：
TokenSpeed：专为 Agentic 工作负载设计的新型推理引擎（Docker 镜像发布）
定位：GB10 / DGX Spark 边缘节点，"光速推理"
注意：Docker 镜像不可复现（基于私有镜像构建），开源完整性存疑
已有实测数据：Custom vLLM + Qwen3.5-35B on DGX Spark GB10 → sustained 50 tok/s，1M context
工程价值： 中——边缘/小规模 Agent 推理的新选项，但开源透明度不足需谨慎
可信度： 中——社区讨论，部分数据来自实测；TokenSpeed 本身不开源需进一步核验
后续行动： 关注 TokenSpeed 开源进展；若 GB10 部署场景有需求再深入

四、pgvector + pgai 生产成熟度（RAG 基础设施）

🟢 保留 9：pgvector 生产 RAG 完整指南（2026 更新版）

来源： DanubeData Blog（2026）
URL： https://danubedata.ro/blog/pgvector-rag-managed-postgres-2026
发布时间： 2026
类型： 工程实战 / 完整 Pipeline
核心内容（2026 优化要点）：
Matryoshka Embeddings：嵌套维度表示，降低存储 + 保持 recall
Halfvec 量化：halfvec 类型将向量存储减半（float32 → float16），HNSW 索引大小直接减半
HNSW 索引参数调优：m/ef_construction / ef 对召回率和性能的 trade-off
混合搜索：pgvector cosine similarity + pg_bm25（全文检索）同查询组合
Python Ingestion Pipeline + FastAPI Retrieval Endpoint 完整代码示例
生产级 Schema 设计：向量表分区、索引策略、查询路由
使用 pgvector 的知名生产用户：OpenAI、Supabase、Neon（欧洲合规数据要求）
工程价值： 高——提供了 2026 年 pgvector 生产 RAG 的完整参考实现，含 Matryoshka + halfvec 最新优化
可信度： 中高——第三方技术博客，代码示例有参考价值；具体数值需对照实际数据验证
后续行动： pg_bm25 + pgvector 混合搜索 SQL 示例值得存档；Matryoshka Embeddings 与传统 embedding 的召回率对比数据需进一步核验

🟢 保留 10：pgvector vs pgai / pgvectorscale — PostgreSQL 向量生态全景

来源： Reddit r/PostgreSQL（2026）
URL： https://www.reddit.com/r/PostgreSQL/comments/1ddqn8w/using_postgresql_as_a_vector_database_already_or
发布时间： 2026
类型： 生态对比 / 社区讨论
核心内容：
pgai：PostgreSQL 原生嵌入生成扩展（在 DB 内直接做 embedding，无需外部服务）
pgvectorscale：Timescale 出品，配合 pgvector 实现 28x lower p95 latency 和 16x higher throughput（vs Pinecone 官方 benchmark）
pg_bm25：全文检索扩展（Elasticsearch 风格），与向量搜索组合成真正混合引擎
核心优势论断：所有数据（向量 + 元数据 + 文档 + 全文索引）在同一 DB 内同一事务，无数据一致性问题
适用判断：中小规模（<50M vectors）且已有 Postgres 栈的团队，pgvector 生态已足够生产可用
工程价值： 高——pgvector 生态 2026 年已完全具备生产条件；关键判断：不再需要为"要不要引入独立向量 DB"而纠结
可信度： 中——社区讨论，pgvectorscale 性能数据来自其 GitHub repo benchmark；建议对照 pgvectorscale GitHub 核实
后续行动： pgvectorscale GitHub benchmark 细节值得精读；纳入 RAG 基础设施选型决策树

五、ByteByteGo 工程洞察（Substack 高质量来源）

🟢 保留 11：EP218 — The Typical AI Agent Stack, Explained

来源： ByteByteGo Substack（Alex Xu）
URL： https://blog.bytebytego.com/p/ep218-the-typical-ai-agent-stack
发布时间： 2026
类型： 架构图解 / 工程教育
核心内容：
AI Agent 技术栈分层图解（LLM / Tool Layer / Memory / Planning / Action）
各层组件职责和选型要点
与 EP215（The Anatomy of an AI Agent）、EP216（RAGs vs Agents）形成体系
工程价值： 高——Alex Xu 的系统设计框架用于 AI Agent，提供了清晰的组件地图
可信度： 高——ByteByteGo 是系统设计领域最权威的工程教育 Newsletter
后续行动： 对照 EP215/EP216 一起精读，形成完整 Agent 系统设计知识

🟢 保留 12：A Guide to AI Inference Engineering — ByteByteGo

来源： ByteByteGo Substack（2026）
URL： https://blog.bytebytego.com/p/a-guide-to-ai-inference-engineering
发布时间： 2026
类型： 工程教育 / 推理系统
核心内容：
推理工程完整图解（Pre-fill / Decode / KV Cache / PagedAttention / Batching Strategy）
优化技术全景（Continuous Batching / Speculative Decoding / KV Cache Compression）
为什么这些优化技术存在（从问题到解法的因果链）
工程价值： 高——推理工程入门到进阶的核心概念框架；比多数博客更系统，比论文更易懂
可信度： 高——ByteByteGo 体系化内容
后续行动： 精读原文；作为 inference engineering 主题页的核心参考资料

📊 候选条目汇总

编号	来源	类型	工程价值	可信度	建议
1	YouTube / Anthropic MCP Creator	Protocol Roadmap	⭐⭐⭐ 极高	高	精读 WorkOS 路线图原文
2	DEV Community / Bifrost	Gateway 选型	⭐⭐ 高	中	纳入 MCP 企业架构
3	Spheron / KubeCon EU 2026	K8s GPU 调度	⭐⭐⭐ 极高	中高	DRA KEP 核验
4	CloudOptimo / CAST AI Report	K8s AI Stack	⭐⭐⭐ 高	中高	CAST AI 报告全文精读
5	ScaleOps	架构批判	⭐⭐ 中高	中	问题分析存档
6	Spheron / H100 Benchmark	推理引擎对比	⭐⭐⭐ 极高	中高	自身硬件实测
7	Yotta Labs / vLLM vs SGLang	架构对比	⭐⭐⭐ 高	中高	纳入选型决策树
8	NVIDIA Forums / TokenSpeed	新兴引擎	⭐⭐ 中	中	关注开源进展
9	DanubeData / pgvector RAG	工程实战	⭐⭐⭐ 高	中高	Matryoshka 数据核验
10	Reddit / pgvector 生态	生态对比	⭐⭐ 高	中	pgvectorscale benchmark 核实
11	ByteByteGo EP218	架构图解	⭐⭐ 高	高	与 EP215/216 一起精读
12	ByteByteGo / AI Inference Engineering	工程教育	⭐⭐⭐ 高	高	精读；纳入主题页

💡 主题页更新建议

mcp-model-context-protocol 主题页：新增 2026 路线图一节（Tasks / Triggers / Skills / SDK v2 / Enterprise Auth）；更新生态规模数据（1.1 亿月下载）
kubernetes-ai-infrastructure 主题页：新增 DRA GPU 调度一节（KubeCon EU 2026）；更新 CAST AI 2026 利用率数据
llm-inference-engineering 主题页：更新 vLLM MRV2 性能数据；新增 Modular MAX 条目；精读 ByteByteGo AI Inference Engineering Guide 作为核心参考
rag-infrastructure 主题页：更新 pgvector 2026 生态成熟度评估（pgai + pgvectorscale）；Matryoshka Embeddings + halfvec 量化加入技术选型

建议写入路径： /shared/research-kb/inbox/jay/2026-06-18-1735-mcp-k8s-dra-inference-engine-pgvector-production.md

本轮写入：是（本文件即为目标草稿）