← 笔记
Jay 2026-06-18 17:35

知识库简报 · Jay · 2026-06-18 下午 5:35 UTC+8

本次主题: MCP 2026 路线图企业级更新 · Kubernetes DRA GPU 调度 KubeCon 新进展 · 推理引擎格局 vLLM MRV2/Modular MAX · pgvector + pgai 生产成熟度 · ByteByteGo AI Agent 工程栈


📌 分类标签

MCP Kubernetes GPU-Scheduling DRA LLM-Inference vLLM SGLang TensorRT-LLM Modular-MAX pgvector pgai RAG ByteByteGo KubeCon Enterprise-AI Agent-Stack


一、MCP 2026 路线图:SDK v2 / Triggers / Enterprise Auth

🟢 保留 1:MCP Creator 披露 2026 路线图(KubeCon / Agentic AI Foundation Keynote)

  • 来源: YouTube · Agentic AI Foundation(2026-04-13,David Soria Parra,MCP 联创 & Anthropic M Staff)
  • URL: https://www.youtube.com/watch?v=kAVRFYgCPg0
  • 作者: David Soria Parra(Anthropic MCP 联创)
  • 发布时间: 2026-04-13
  • 类型: Protocol Roadmap / Ecosystem
  • 核心数据:
  • MCP SDK 月下载量 1.1 亿次(超越 React 前 3 年增速,16 个月内达成)
  • 企业落地:Salesforce CRM、Jira、Snowflake、企业内部 Wiki(都是大规模真实部署)
  • 2026 路线图核心更新(5 项关键功能):
  1. Tasks 原语(Long-Running Tasks):支持自主 Agent 长任务编排通信,解决 MCP 仅能做单次工具调用的局限
  2. Triggers:Webhooks for MCP——Server 可主动向 Client 推送数据通知,取代轮询
  3. Native Streaming:增量式工具结果流式返回(解决工具结果必须完整返回再解析的延迟问题)
  4. Skills Over MCP:将领域知识与 MCP Server 打包,Agent 自动理解工具使用方式(解决工具调用上下文膨胀问题)
  5. Cross-App Access:与身份提供商直接对话,替换企业内 OAuth 跳转流程
  • SDK v2 重写:Python & TypeScript SDK 全新 API 设计(更好的人体工学),即将发布
  • Context Bloat 解决方案:渐进式工具发现(progressive discovery)+ 工具搜索(tool search),取代全量工具清单下发
  • MCP 捐赠 CNCF:Anthropic 将 MCP 协议移交 Linux Foundation / Agentic AI Foundation 管理
  • Transport 演进:当前 Streamable HTTP 将升级为无状态设计,面向超大规模部署
  • 工程价值: 极高——这是 MCP 正式迈向企业生产的关键节点,Tasks/Triggers/Skills 三项直接改变 Agent 工程架构
  • 可信度: 高——MCP 联创亲自披露,Agentic AI Foundation(Linux Foundation 子项目)背书
  • 后续行动: 跟进 Agentic AI Foundation MCP 2026 路线图 WorkOS 原文(https://workos.com/blog/2026-mcp-roadmap-enterprise-readiness);评估 Skills 原语对 Agent 工具编排的架构影响

🟢 保留 2:Best MCP Gateways for AI Agents 2026 — Bifrost / 企业级工具治理

  • 来源: DEV Community · kuldeep_paul(2026)
  • URL: https://dev.to/kuldeep_paul/best-mcp-gateways-for-ai-agents-in-2026-29c7
  • 发布时间: 2026
  • 类型: Gateway 选型 / 企业架构
  • 核心内容:
  • MCP Gateway 定位:AI Agent 与工具之间的集中控制平面(鉴权、治理、审计)
  • Gartner 预测(2026):多数 API Gateway 厂商将在 2026 年集成 MCP 能力
  • Bifrost(开源,Go):LLM 路由 + MCP Gateway 二合一,适合生产 AI Agent 需要统一模型路由+工具治理的场景
  • MCP 正在从"开发者工具协议"演化为"企业 AI 集成总线"
  • 工程价值: 高——企业落地 MCP 时,Gateway 层是必须考虑的治理和安全架构组件
  • 可信度: 中——技术分析文章,Gateway 选型需结合实际部署环境验证
  • 后续行动: 纳入 MCP 企业落地架构参考;Bifrost GitHub 实际功能需核验

二、Kubernetes GPU 调度:KubeCon Europe 2026 DRA + KAI Scheduler

🟢 保留 3:KubeCon Europe 2026 — NVIDIA DRA Driver 捐赠 CNCF

  • 来源: Spheron Network(2026-06)
  • URL: https://www.spheron.network/blog/kubernetes-gpu-orchestration-2026
  • 发布时间: 2026-06(KubeCon Europe 2026 之后)
  • 类型: Kubernetes GPU 调度 / 标准演进
  • 核心事件:
  • NVIDIA 在 KubeCon EU 2026 将 Dynamic Resource Allocation(DRA)Driver 捐赠给 CNCF
  • 这是 Kubernetes GPU 调度史上最重要的事件之一——DRA 取代 decade-old NVIDIA device plugin
  • DRA vs 旧模型对比:
  • 旧模型:nvidia.com/gpu: 1 整数请求,无法表达 GPU 拓扑、显存、算力
  • DRA:结构化资源参数(structured parameters),调度器可真正推理 GPU 资源
  • 实际意义:多租户 GPU 集群、分数 GPU 分配、拓扑感知调度成为可能
  • 配套工具链:
  • KAI Scheduler:多租户优先级调度(替代原生 Kubernetes 调度器对 GPU 场景的不足)
  • Grove:声明式推理 workload 管理(InferenceProfile CRD)
  • 工程价值: 极高——这是 Kubernetes GPU 调度范式切换节点;平台工程师必须理解 DRA 模型
  • 可信度: 中高——KubeCon 官方事件,具体 API 细节需参考 CNCF KEP-4381 DRA 文档
  • 后续行动: 阅读 KubeCon DRA session 视频;对比 DRA vs gang scheduling 对训练 vs 推理场景的适用性

🟢 保留 4:Kubernetes AI Infrastructure 2026 — GPU Scheduling & Production Realities

  • 来源: CloudOptimo Blog(2026)
  • URL: https://www.cloudoptimo.com/blog/kubernetes-ai-infrastructure-in-2026-gpu-scheduling-and-production-realities
  • 发布时间: 2026
  • 类型: 架构参考 / 生产实践
  • 核心内容(生产 Kubernetes AI Stack 参考架构):
  • KubeRay:分布式训练协调(Ray + Kubernetes 集成事实标准)
  • GPU 调度痛点:默认 Kubernetes 调度器无法处理 GPU 拓扑、显存碎片、多租户隔离
  • 多租户设计:node taints + node selectors + GKE ProvisioningRequest(动态扩缩)
  • DRA 资源分配:基于 CNCF KEP-4381,Kubernetes 终于有了可表达 GPU 资源的 API
  • 推理 Serving:vLLM / SGLang on Kubernetes + KServe / Triton Inference Server
  • CAST AI 2026 数据:K8s 平均 CPU 利用率仅 8%(2025 年),GPU 利用率更低(<20-30%)
  • 工程价值: 高——提供了完整的生产 K8s AI Stack 各层组件地图;从训练到推理全覆盖
  • 可信度: 中高——技术博客,具体数字来自 CAST AI 2026 报告(https://cast.ai/reports/kubernetes-optimization-report)
  • 后续行动: CAST AI Kubernetes Optimization Report 2026 全文值得精读;纳入 Kubernetes AI Platform 选型参考

🟢 保留 5:AI Infra for Production — Kubernetes GPU 资源管理结构性缺陷

  • 来源: ScaleOps Blog(2026)
  • URL: https://scaleops.com/blog/ai-infra-for-production-why-gpu-resource-management-in-kubernetes-demands-a-new-approach
  • 发布时间: 2026
  • 类型: 架构批判 / 产品视角
  • 核心观点:
  • Kubernetes 原语无法反映 AI 工作负载实际消耗 GPU 的方式
  • 原因:GPU 利用率 20-30% 是常态,因为 K8s 无法做应用感知的连续 GPU 碎片整合
  • ScaleOps AI Infra:continuous GPU rightsizing + fractional GPU allocation(需要商业产品,但思路有参考价值)
  • 解决思路:应用层自动化(知道推理吞吐特征)vs K8s 调度层(只知道资源请求)
  • 工程价值: 中高——批判性分析,对理解 K8s GPU 调度深层问题有启发,但产品导向明显
  • 可信度: 中——产品类博客,但核心观点(K8s GPU 利用率低)与 CAST AI 数据一致
  • 后续行动: 作为 Kubernetes GPU 调度问题深度分析存档;不必精读产品细节

三、LLM 推理引擎格局(2026-06 更新)

🟢 保留 6:vLLM vs SGLang vs TensorRT-LLM — H100 Benchmark(2026-06 更新)

  • 来源: Spheron Network(2026-06)
  • URL: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
  • 发布时间: 2026-06
  • 类型: 基准测试 / 选型对比
  • 核心数据:
  • vLLM MRV2(Model Runner V2):GB200 上吞吐量提升 56%(vs legacy runner;H100 数据不同)
  • SGLang + TRT-LLM DSA:DeepSeek V3.2 + Blackwell 组合,通过 --nsa-prefill-backend trtllm + --nsa-decode-backend trtllm 实现 3x-5x speedup
  • Modular MAX(Mojo 内核):新兴竞品,图编译 Mojo 内核在 dense model 高并发场景超越 vLLM
  • 新模型支持扩展:Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5 均已在 SGLang latest 支持
  • NVIDIA NIM:Turnkey 容器方案,Engine + Weights + API 一体化,零 TRT-LLM 手动编译
  • 2026 选型参考:
  • 高吞吐量离线 Batch → vLLM MRV2
  • 结构化 Agent 流水线 / 多步生成 → SGLang(原生 pipeline 描述)
  • 低延迟实时推理(已知模型) → TensorRT-LLM
  • 新兴探索 / dense model 高并发 → Modular MAX
  • 工程价值: 极高——提供了 2026-06 最新 benchmark 数据和引擎演进动态
  • 可信度: 中高——第三方测试,需结合自身模型和硬件实测
  • 后续行动: Modular MAX vs vLLM 部署指南(同一来源)值得进一步精读;Kimi-K2.5 在 SGLang 的实测数据待官方发布

🟢 保留 7:vLLM vs SGLang 2026 — 深度架构与成本对比

  • 来源: Yotta Labs(2026)
  • URL: https://www.yottalabs.ai/post/vllm-vs-sglang-which-inference-engine-should-you-use-in-2026
  • 发布时间: 2026
  • 类型: 深度对比 / 工程选型
  • 核心洞察:
  • SGLang 的核心差异化:不是性能竞赛,而是结构化生成——多步程序化生成流水线(Agent 场景)、chain-of-thought tracing、constrained decoding 原生支持
  • vLLM 的核心差异化:PagedAttention + 极致吞吐量,适合纯 API Serving 场景
  • Agent 架构建议:在 SGLang 之上构建 agent 逻辑,因为 pipeline 描述可直接对应 agent state machine
  • 架构建议:推理引擎只是整个系统中的一层;GPU 分配、网络、编排的设计对 Agent 类变长推理负载影响更大
  • 工程价值: 高——SGLang vs vLLM 不只是性能数字,而是场景哲学差异;为 Agent 架构选型提供判断框架
  • 可信度: 中高——技术分析,与其他来源数据基本吻合
  • 后续行动: 纳入推理引擎选型决策树;SGLang 结构化生成流水线文档值得精读

🟢 保留 8:TokenSpeed — 新型推理引擎(GB10 / DGX Spark)

  • 来源: NVIDIA Developer Forums(2026-05/06)
  • URL: https://forums.developer.nvidia.com/t/tokenspeed-as-alternative-to-vllm/369218
  • 发布时间: 2026-05
  • 类型: 新兴引擎 / 边缘部署
  • 核心内容:
  • TokenSpeed:专为 Agentic 工作负载设计的新型推理引擎(Docker 镜像发布)
  • 定位:GB10 / DGX Spark 边缘节点,"光速推理"
  • 注意:Docker 镜像不可复现(基于私有镜像构建),开源完整性存疑
  • 已有实测数据:Custom vLLM + Qwen3.5-35B on DGX Spark GB10 → sustained 50 tok/s,1M context
  • 工程价值: 中——边缘/小规模 Agent 推理的新选项,但开源透明度不足需谨慎
  • 可信度: 中——社区讨论,部分数据来自实测;TokenSpeed 本身不开源需进一步核验
  • 后续行动: 关注 TokenSpeed 开源进展;若 GB10 部署场景有需求再深入

四、pgvector + pgai 生产成熟度(RAG 基础设施)

🟢 保留 9:pgvector 生产 RAG 完整指南(2026 更新版)

  • 来源: DanubeData Blog(2026)
  • URL: https://danubedata.ro/blog/pgvector-rag-managed-postgres-2026
  • 发布时间: 2026
  • 类型: 工程实战 / 完整 Pipeline
  • 核心内容(2026 优化要点):
  • Matryoshka Embeddings:嵌套维度表示,降低存储 + 保持 recall
  • Halfvec 量化halfvec 类型将向量存储减半(float32 → float16),HNSW 索引大小直接减半
  • HNSW 索引参数调优m/ef_construction / ef 对召回率和性能的 trade-off
  • 混合搜索:pgvector cosine similarity + pg_bm25(全文检索)同查询组合
  • Python Ingestion Pipeline + FastAPI Retrieval Endpoint 完整代码示例
  • 生产级 Schema 设计:向量表分区、索引策略、查询路由
  • 使用 pgvector 的知名生产用户:OpenAI、Supabase、Neon(欧洲合规数据要求)
  • 工程价值: 高——提供了 2026 年 pgvector 生产 RAG 的完整参考实现,含 Matryoshka + halfvec 最新优化
  • 可信度: 中高——第三方技术博客,代码示例有参考价值;具体数值需对照实际数据验证
  • 后续行动: pg_bm25 + pgvector 混合搜索 SQL 示例值得存档;Matryoshka Embeddings 与传统 embedding 的召回率对比数据需进一步核验

🟢 保留 10:pgvector vs pgai / pgvectorscale — PostgreSQL 向量生态全景

  • 来源: Reddit r/PostgreSQL(2026)
  • URL: https://www.reddit.com/r/PostgreSQL/comments/1ddqn8w/using_postgresql_as_a_vector_database_already_or
  • 发布时间: 2026
  • 类型: 生态对比 / 社区讨论
  • 核心内容:
  • pgai:PostgreSQL 原生嵌入生成扩展(在 DB 内直接做 embedding,无需外部服务)
  • pgvectorscale:Timescale 出品,配合 pgvector 实现 28x lower p95 latency16x higher throughput(vs Pinecone 官方 benchmark)
  • pg_bm25:全文检索扩展(Elasticsearch 风格),与向量搜索组合成真正混合引擎
  • 核心优势论断:所有数据(向量 + 元数据 + 文档 + 全文索引)在同一 DB 内同一事务,无数据一致性问题
  • 适用判断:中小规模(<50M vectors)且已有 Postgres 栈的团队,pgvector 生态已足够生产可用
  • 工程价值: 高——pgvector 生态 2026 年已完全具备生产条件;关键判断:不再需要为"要不要引入独立向量 DB"而纠结
  • 可信度: 中——社区讨论,pgvectorscale 性能数据来自其 GitHub repo benchmark;建议对照 pgvectorscale GitHub 核实
  • 后续行动: pgvectorscale GitHub benchmark 细节值得精读;纳入 RAG 基础设施选型决策树

五、ByteByteGo 工程洞察(Substack 高质量来源)

🟢 保留 11:EP218 — The Typical AI Agent Stack, Explained

  • 来源: ByteByteGo Substack(Alex Xu)
  • URL: https://blog.bytebytego.com/p/ep218-the-typical-ai-agent-stack
  • 发布时间: 2026
  • 类型: 架构图解 / 工程教育
  • 核心内容:
  • AI Agent 技术栈分层图解(LLM / Tool Layer / Memory / Planning / Action)
  • 各层组件职责和选型要点
  • 与 EP215(The Anatomy of an AI Agent)、EP216(RAGs vs Agents)形成体系
  • 工程价值: 高——Alex Xu 的系统设计框架用于 AI Agent,提供了清晰的组件地图
  • 可信度: 高——ByteByteGo 是系统设计领域最权威的工程教育 Newsletter
  • 后续行动: 对照 EP215/EP216 一起精读,形成完整 Agent 系统设计知识

🟢 保留 12:A Guide to AI Inference Engineering — ByteByteGo

  • 来源: ByteByteGo Substack(2026)
  • URL: https://blog.bytebytego.com/p/a-guide-to-ai-inference-engineering
  • 发布时间: 2026
  • 类型: 工程教育 / 推理系统
  • 核心内容:
  • 推理工程完整图解(Pre-fill / Decode / KV Cache / PagedAttention / Batching Strategy)
  • 优化技术全景(Continuous Batching / Speculative Decoding / KV Cache Compression)
  • 为什么这些优化技术存在(从问题到解法的因果链)
  • 工程价值: 高——推理工程入门到进阶的核心概念框架;比多数博客更系统,比论文更易懂
  • 可信度: 高——ByteByteGo 体系化内容
  • 后续行动: 精读原文;作为 inference engineering 主题页的核心参考资料

📊 候选条目汇总

编号 来源 类型 工程价值 可信度 建议
1 YouTube / Anthropic MCP Creator Protocol Roadmap ⭐⭐⭐ 极高 精读 WorkOS 路线图原文
2 DEV Community / Bifrost Gateway 选型 ⭐⭐ 高 纳入 MCP 企业架构
3 Spheron / KubeCon EU 2026 K8s GPU 调度 ⭐⭐⭐ 极高 中高 DRA KEP 核验
4 CloudOptimo / CAST AI Report K8s AI Stack ⭐⭐⭐ 高 中高 CAST AI 报告全文精读
5 ScaleOps 架构批判 ⭐⭐ 中高 问题分析存档
6 Spheron / H100 Benchmark 推理引擎对比 ⭐⭐⭐ 极高 中高 自身硬件实测
7 Yotta Labs / vLLM vs SGLang 架构对比 ⭐⭐⭐ 高 中高 纳入选型决策树
8 NVIDIA Forums / TokenSpeed 新兴引擎 ⭐⭐ 中 关注开源进展
9 DanubeData / pgvector RAG 工程实战 ⭐⭐⭐ 高 中高 Matryoshka 数据核验
10 Reddit / pgvector 生态 生态对比 ⭐⭐ 高 pgvectorscale benchmark 核实
11 ByteByteGo EP218 架构图解 ⭐⭐ 高 与 EP215/216 一起精读
12 ByteByteGo / AI Inference Engineering 工程教育 ⭐⭐⭐ 高 精读;纳入主题页

💡 主题页更新建议

  1. mcp-model-context-protocol 主题页:新增 2026 路线图一节(Tasks / Triggers / Skills / SDK v2 / Enterprise Auth);更新生态规模数据(1.1 亿月下载)
  2. kubernetes-ai-infrastructure 主题页:新增 DRA GPU 调度一节(KubeCon EU 2026);更新 CAST AI 2026 利用率数据
  3. llm-inference-engineering 主题页:更新 vLLM MRV2 性能数据;新增 Modular MAX 条目;精读 ByteByteGo AI Inference Engineering Guide 作为核心参考
  4. rag-infrastructure 主题页:更新 pgvector 2026 生态成熟度评估(pgai + pgvectorscale);Matryoshka Embeddings + halfvec 量化加入技术选型

建议写入路径: /shared/research-kb/inbox/jay/2026-06-18-1735-mcp-k8s-dra-inference-engine-pgvector-production.md

本轮写入:是(本文件即为目标草稿)