📚 学术研究知识库草稿 · Jay · 2026-06-22 晚间 21:05

主题： 推理引擎三强对比（H100 实测数据）· 向量数据库 2026 基准决策树 · MCP 安全时间线（CSA/AuthZed）· Kubernetes GPU 编排新标准（DRA/KAI/KubeCon EU 2026）· arXiv KVCache 驱逐新研究 检索范围： arXiv、Turion.ai、DeployBase、Spheron、aiMultiple、Techsy.io、Spheron、CSA Blog、AuthZed Blog、NimbleBrain、OpenReview、IETF 去重说明： 今日已有 0935/1050/1105/1335/1450/1620/1830/1835/1950 共 9 篇；本篇聚焦：①推理引擎三强实测数字（新综合）②向量数据库选型决策树（精细版）③MCP 安全时间线（新版 CSA/AuthZed）④KubeCon EU 2026 GPU 编排标准进展（新）⑤TAKE + KV Policy arXiv（新）；均未与上述 9 篇重叠 Substack 规则： 本次无新 Substack 高价值条目（今日 Substack 来源集中于职业/路线图内容，工程价值低，已由 1950 engineering-filter 丢弃）

🏆 高价值条目（优先精读）

🔴 后端 / 推理引擎（⭐⭐⭐⭐⭐）

1. vLLM vs SGLang vs LMDeploy · H100 2026 全面对比（⭐⭐⭐⭐⭐）

来源： Turion.ai、DeployBase、aiMultiple、Spheron、Techsy.io（多源交叉） 链接： - Turion.ai: https://turion.ai/blog/vllm-vs-sglang-inference-comparison-2026 - DeployBase: https://deploybase.ai/articles/sglang-vs-vllm - aiMultiple: https://aimultiple.com/inference-engines - Spheron: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks

核心 Benchmark 数据（H100 实测）：

引擎	Llama 3.1 8B H100 吞吐量	Llama 3 70B 4bit 量化 100并发	关键特性
SGLang	~16,200 tok/s	参照多源数据排第1	RadixAttention token级前缀复用；结构化输出最强
LMDeploy	~16,200 tok/s	700 tok/s（p99 最低TTFT）	TurboMind C++引擎；Int4 量化 4x 内存节省
vLLM	~12,500 tok/s（差距29%）	排第2	PagedAttention 块级缓存；硬件覆盖最广（TGI/AMD/TPU）

决策框架（生产选型）：

选 SGLang 如果：
  · 多轮对话 / Agentic Workflow（结构化输出）
  · 前缀共享 >60% 的 RAG 管道（RadixAttention 3-5x prefill 提升）
  · DeepSeek 系列（MLA 优化内核）
  · 愿意接受较小生态

选 vLLM 如果：
  · 需要 NVIDIA + AMD + AWS Trainium / Google TPU 多硬件支持
  · 追求最大生态和社区支持（HF 默认推荐）
  · 批量推理 / 模板化 Prompt（块级缓存够用）

选 LMDeploy 如果：
  · 主要服务量化模型（Int4 4x 内存节省，单卡 70B）
  · 需要最低 TTFT（Time to First Token）

SGLang vs vLLM 前缀缓存实测（Turion.ai）：
  100 请求 × 500 token 相同前缀：
  · vLLM: 500 × 100 = 50,000 tokens 重复计算
  · SGLang: RadixAttention 树缓存，只计算 delta
  → 3-5x prefill 延迟改善（前缀复用 >60% 时）

成本数字（DeployBase）： - SGLang 每 H100 日处理 800K tokens，vLLM 处理 600K tokens - SGLang 4,000 token 系统 Prompt 只缓存一次 - 100 请求场景：SGLang 成本 $0.0000004 vs vLLM $0.0000050（差距 12.5x）

工程价值： 极高——多源独立实测数据吻合；具体命令/配置建议可引用 可信度： 高（aiMultiple 独立第三方 + Turion.ai 生产部署经验 + Spheron 硬件基准） 后续行动： 纳入推理引擎选型主题页；关注 SGLang Native Sparse Attention（NSA）+ TRT-LLM 集成进展（Spheron 披露 DeepSeek V3.2 已支持）

2. SGLang RadixAttention vs vLLM PagedAttention 原理对比（⭐⭐⭐⭐）

来源： LocalAI Master、DeployBase 链接： https://localaimaster.com/blog/sglang-vs-vllm-comparison

技术细节： - vLLM PagedAttention：将 KV Cache 视为虚拟内存，分块管理（block-level）；相同块边界对齐时重用；v0.5 引入前缀缓存但效率低于 RadixAttention - SGLang RadixAttention：token 级 radix 树，自动发现跨请求共享前缀，无需手动配置；新请求到达时遍历树找到最长匹配，只计算 delta - 结构化输出差异：SGLang 支持 regex/JSON schema/自定义 FSM，解码期约束 token 生成；vLLM 先生成再验证/重生成，效率较低

工程价值： 高——原理层理解对故障排查和性能调优有直接帮助 可信度： 中（技术博客汇总，但原理描述准确） 后续行动： 纳入推理引擎内部机制主题页

🟠 数据库 / 向量数据库（⭐⭐⭐⭐⭐）

3. 向量数据库 2026 精细选型决策树（综合更新版）⭐⭐⭐⭐⭐

来源： CallSphere Blog（2026 基准）、BirJob（pgvector 50M 向量数据）、Layerbase Blog 链接： - https://callsphere.ai/blog/vector-database-benchmarks-2026-pgvector-qdrant-weaviate-milvus-lancedb - https://www.birjob.com/blog/vector-databases-production-2026 - https://layerbase.com/blog/vector-databases-compared-2026

新增关键数据（2026-06 更新）：

场景	推荐方案	核心理由
<10M 向量，己有 Postgres	pgvector 0.9	免费；HNSW 索引 ~5K-15K QPS；pgvectorscale（Timescale）DiskANN + SBQ 在 50M 向量 471 QPS / 99% recall
10M-100M 向量	Qdrant	Rust 实现；过滤搜索最快；Apache 2.0；独立评测多源验证
100M-1B+ 向量	Milvus	K8s 原生分布式；GPU 加速；成熟生产案例
>1B + 毫秒级 p99	Vespa	唯一满足超大规模 + 低延迟的混合方案
已有 MongoDB	MongoDB Atlas Vector Search	统一数据平台；文档+向量同查询
原型 / 本地开发	ChromaDB	DX 最优；快速上手
完全托管	Pinecone / Vertex Vector	零运维；但 >$65/mo

2026 新结论（Layerbase）： - pgvector 在 50M 向量规模已可击败 Qdrant 10x QPS（配合 pgvectorscale） - Hybrid search（BM25 + 向量 + RRF）是 2026 标配：Qdrant 过滤最强，Weaviate 原生混合最优 - 选型第一步：看数据平台承诺（Postgres → pgvector / GCP → Vertex / 已有 Mongo → Atlas）

工程价值： 高——2026-06 最新基准，可直接用于生产选型决策 可信度： 高（多源独立评测，含 pgvectorscale 50M 实测数据） 后续行动： 纳入向量数据库主题页「2026 选型决策树 v2」

🟠 云原生 / Kubernetes GPU 编排（⭐⭐⭐⭐⭐）

4. KubeCon EU 2026 GPU 编排新标准：DRA + KAI + Kata Containers ⭐⭐⭐⭐

来源： Rafay 官方文档（KubeCon EU 2026 汇总） 链接： https://docs.rafay.co/blog/2026/03/25/advancing-gpu-scheduling-and-isolation-in-kubernetes

三大发布（2026年3月 KubeCon EU）：

技术	来源	进展	意义
DRA Driver for GPUs	NVIDIA → CNCF 捐赠	2026-03 正式移交	GPU 资源管理从单一厂商转向社区标准；Kubernetes 统一调度 AMD/NVIDIA
KAI Scheduler	NVIDIA	CNCF Sandbox 接受	AI 感知调度语义；生产负载分类 + 优先级 + 配额控制
Kata Containers GPU 支持	NVIDIA + CNCF Confidential Containers	新增 GPU 硬件隔离	多租户 GPU 工作负载安全隔离（虚拟机级）

Bloomberg 案例（KubeCon EU 2026 Talk）： - 场景：Karmada 多集群 Kubernetes 管理 ML/训练跨数据中心负载 - 问题：数千 GPU 作业导致不可预测的调度延迟 - 方案：Karmada 控制器 + 实时队列预测（O(1) 复杂度） - 结果：GPU 空闲时间减少；预测精度从日均提升到实时指标

Kthena（华为/Volcano 子项目）： - CNCF 官方定位：云原生 LLM 推理路由 + 编排 + 调度 - 特点：与 Volcano 训练能力统一，形成端到端 AI 生命周期管理 - 链接：https://www.cncf.io/blog/2026/01/28/introducing-kthena-llm-inference-for-the-cloud-native-era

CNCF llm-d 框架 + Kubernetes AI Conformance（KARs）： - llm-d 框架贡献给 CNCF：分布式 K8s 集群部署 AI 推理工作负载 - Kubernetes AI Conformance Program 扩展：验证 AI agentic 沙箱工作负载跨 K8s 环境可移植性 - 意义：AI 推理工作负载的"容器化标准"正在形成

工程价值： 高——GPU 编排标准正在收敛；KAI Scheduler 值得关注 可信度： 高（Rafay 官方文档 + CNCF 官方博客 + KubeCon 官方） 后续行动： 纳入 Kubernetes AI 主题页；跟踪 KAI Scheduler 正式毕业时间

🔵 arXiv 研究 / Reproduction（⭐⭐⭐⭐）

5. TAKE: Task-Aware Chunked KV Cache Eviction（ICLR 2026 under review）⭐⭐⭐⭐

来源： OpenReview（ICLR 2026 匿名投稿） 链接： https://openreview.net/pdf/e484da8ffcf20feedfb810100a204ca9e590033d.pdf

核心贡献： - 问题：长上下文 LLM 推理中 KV Cache 内存压力巨大；现有方法基于启发式（recency / attention scores）间接代理未来 token 价值 - 方案：TAKE——训练无关（training-free）的 chunk-wise KV Cache 驱逐框架 - 目标：平衡内存效率 + 模型性能 + TTFT 降低 - 方法：task-aware chunk 划分 + 自适应驱逐策略

工程价值： 高——TTFT 优化是长文本推理的核心痛点；training-free 意味着可快速集成到现有推理引擎 可信度： 中高（ICLR under review，有具体技术细节） 后续行动： 等待正式接收；对比 KV Policy（arXiv:2602.10238）看哪个更成熟

6. KV Policy: Learning to Evict from KV Cache（RL 方法）⭐⭐⭐⭐

来源： arXiv:2602.10238v1 链接： https://arxiv.org/html/2602.10238v1

核心贡献： - 问题：传统驱逐策略（recency / attention scores）只作为未来效用间接代理 - 方案：将 KV Cache 驱逐重构为 RL 问题——学习 token 未来价值排序 - 方法：KV Policy（KVP）——轻量级 per-head RL agent，在预计算生成轨迹上训练，只用 key 和 value 向量 - 特点：无模型修改，无需额外推理开销；跨 cache budget 评估排名质量

对比 TAKE： - TAKE：training-free，chunk-wise，task-aware - KVP：RL 驱动，per-head agent，学习未来效用预测 - 两者路线不同，可互补

工程价值： 高——RL 路线较新，但"预测 token 未来效用"思路很有前景 可信度： 中（arXiv pre-print，需要等正式发表验证） 后续行动： 精读原文方法论；对比 PrefixWall / HotPrefix 等 KVCache 研究

🟡 后端 / MCP 安全（⭐⭐⭐⭐）

7. MCP 安全时间线 2026（CSA + AuthZed 联合整理）⭐⭐⭐⭐

来源： CSA Blog（系统设计缺陷深度报告）、AuthZed Blog（MCP 安全事件时间线） 链接： - CSA: https://labs.cloudsecurityalliance.org/research/csa-research-note-mcp-security-crisis-20260504-csa-styled - AuthZed: https://authzed.com/blog/timeline-mcp-breaches - NimbleBrain State of MCP Security March 2026: https://nimblebrain.ai/blog/state-of-mcp-security-2026

MCP 安全全景（AuthZed 整理截至 2026-05）：

时间	事件	严重性
2026-04	Flowise RCE（CVE，CVSS 10.0）	critical
2026-04	OX Security STDIO 命令注入（"Mother of All AI Supply Chains"）	critical
2026-04	Tool Poisoning 攻击（Invariant Labs 披露）	high
2026-05	200,000 MCP 服务器暴露 STDIO 漏洞（VentureBeat 报道）	critical
2026-05	CVE-2026-30623：Anthropic MCP SDK 命令注入（LiteLLM 文档）	CVSS 9.6
2026-03	OpenClaw 42,000 实例暴露（未授权 MCP 端点泄漏 API key / Slack 凭证）	critical
2026-03	NimbleBrain MCP 安全状态报告：3012 服务器注册，OAuth 使用率仅 8.5%，7 个 CVE	高位运行

关键数据： - 3,012 个唯一 MCP 服务器注册于官方注册表（2026-03） - 仅 8.5% 使用 OAuth；其余依赖静态 API key 或无认证 - 前线模型在恶意工具调用前拒绝率 <3%（MCP-Tox Benchmark）

SANS SEC411 Context Injection 攻击向量（2026-05）： - Tool Poisoning：隐藏指令嵌入 MCP 工具描述，人眼不可见但 LLM 可执行 - Rug Pulls：通过初始安全审查后数周悄然替换为恶意描述 - Cross-Server Context Injection：恶意 MCP 服务器污染共享上下文

防御框架： - CSA: mcp-safeguard 开源扫描工具（黑盒评估运行中 MCP 服务器） - SANS: 4A Framework（Assistant / Adjuvant / Augmentor / Agent）映射能力层级 - Lethal Trifecta++：私有数据访问 + 非信任输入暴露 + 外部行动能力 + 持久内存

IETF Draft（2026-06）： - 标题：Security Considerations for MCP Implementations in AI Agent Systems - 地址：https://www.ietf.org/archive/id/draft-mohiuddin-mcp-security-considerations-00.html - 内容：MCP 服务器公开漏洞分类、自动检测方法（mcp-safeguard）、Protocol Pivoting 跨协议横向移动模式

工程价值： 高——MCP 已进入生产广泛部署，安全风险正在被系统化披露 可信度： 高（CSA + AuthZed 均为安全领域权威机构；IETF Draft 标准化进展） 后续行动： 纳入 AI Agent 安全主题页；关注 IETF Draft 进展和 mcp-safeguard 开源更新

📋 分类标签汇总

标签	条目数量	高价值
`#推理引擎` `#vLLM` `#SGLang` `#LMDeploy`	1, 2	⭐⭐⭐⭐⭐
`#向量数据库` `#Qdrant` `#pgvector` `#Milvus`	3	⭐⭐⭐⭐⭐
`#Kubernetes` `#GPU调度` `#KAI-Scheduler` `#DRA`	4	⭐⭐⭐⭐⭐
`#arXiv` `#KVCache` `#RL` `#ICLR2026`	5, 6	⭐⭐⭐⭐
`#MCP` `#安全` `#CVE` `#IETF`	7	⭐⭐⭐⭐

📝 建议写入路径

草稿路径： /shared/research-kb/inbox/jay/2026-06-22-2105-evening-briefing-inference-vecdb-mcp-kubecon.md
后续 GitHub 操作： 合并到 research-kb 仓库（由串行同步任务处理）
本轮不执行 GitHub 写入

🎯 后续行动建议

优先级	行动	负责实例
P0	MCP 安全条目纳入 AI Agent 安全主题页（当前缺失）	tom/stephen
P1	推理引擎三强对比数字提炼为选型决策表格	Jay（当前草稿已含）
P2	KubeCon EU 2026 GPU 编排三大发布整理为独立条目	tom
P2	TAKE + KV Policy 论文对比分析	subagent
P3	pgvector 50M 向量基准数字纳入向量数据库主题页	待定