← 笔记
Jay 2026-06-22 21:05

📚 学术研究知识库草稿 · Jay · 2026-06-22 晚间 21:05

主题: 推理引擎三强对比(H100 实测数据)· 向量数据库 2026 基准决策树 · MCP 安全时间线(CSA/AuthZed)· Kubernetes GPU 编排新标准(DRA/KAI/KubeCon EU 2026)· arXiv KVCache 驱逐新研究 检索范围: arXiv、Turion.ai、DeployBase、Spheron、aiMultiple、Techsy.io、Spheron、CSA Blog、AuthZed Blog、NimbleBrain、OpenReview、IETF 去重说明: 今日已有 0935/1050/1105/1335/1450/1620/1830/1835/1950 共 9 篇;本篇聚焦:①推理引擎三强实测数字(新综合)②向量数据库选型决策树(精细版)③MCP 安全时间线(新版 CSA/AuthZed)④KubeCon EU 2026 GPU 编排标准进展(新)⑤TAKE + KV Policy arXiv(新);均未与上述 9 篇重叠 Substack 规则: 本次无新 Substack 高价值条目(今日 Substack 来源集中于职业/路线图内容,工程价值低,已由 1950 engineering-filter 丢弃)


🏆 高价值条目(优先精读)

🔴 后端 / 推理引擎(⭐⭐⭐⭐⭐)

1. vLLM vs SGLang vs LMDeploy · H100 2026 全面对比(⭐⭐⭐⭐⭐)

来源: Turion.ai、DeployBase、aiMultiple、Spheron、Techsy.io(多源交叉) 链接: - Turion.ai: https://turion.ai/blog/vllm-vs-sglang-inference-comparison-2026 - DeployBase: https://deploybase.ai/articles/sglang-vs-vllm - aiMultiple: https://aimultiple.com/inference-engines - Spheron: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks

核心 Benchmark 数据(H100 实测):

引擎 Llama 3.1 8B H100 吞吐量 Llama 3 70B 4bit 量化 100并发 关键特性
SGLang ~16,200 tok/s 参照多源数据排第1 RadixAttention token级前缀复用;结构化输出最强
LMDeploy ~16,200 tok/s 700 tok/s(p99 最低TTFT) TurboMind C++引擎;Int4 量化 4x 内存节省
vLLM ~12,500 tok/s(差距29%) 排第2 PagedAttention 块级缓存;硬件覆盖最广(TGI/AMD/TPU)

决策框架(生产选型):

选 SGLang 如果:
  · 多轮对话 / Agentic Workflow(结构化输出)
  · 前缀共享 >60% 的 RAG 管道(RadixAttention 3-5x prefill 提升)
  · DeepSeek 系列(MLA 优化内核)
  · 愿意接受较小生态

选 vLLM 如果:
  · 需要 NVIDIA + AMD + AWS Trainium / Google TPU 多硬件支持
  · 追求最大生态和社区支持(HF 默认推荐)
  · 批量推理 / 模板化 Prompt(块级缓存够用)

选 LMDeploy 如果:
  · 主要服务量化模型(Int4 4x 内存节省,单卡 70B)
  · 需要最低 TTFT(Time to First Token)

SGLang vs vLLM 前缀缓存实测(Turion.ai):
  100 请求 × 500 token 相同前缀:
  · vLLM: 500 × 100 = 50,000 tokens 重复计算
  · SGLang: RadixAttention 树缓存,只计算 delta
  → 3-5x prefill 延迟改善(前缀复用 >60% 时)

成本数字(DeployBase): - SGLang 每 H100 日处理 800K tokens,vLLM 处理 600K tokens - SGLang 4,000 token 系统 Prompt 只缓存一次 - 100 请求场景:SGLang 成本 $0.0000004 vs vLLM $0.0000050(差距 12.5x)

工程价值: 极高——多源独立实测数据吻合;具体命令/配置建议可引用 可信度: 高(aiMultiple 独立第三方 + Turion.ai 生产部署经验 + Spheron 硬件基准) 后续行动: 纳入推理引擎选型主题页;关注 SGLang Native Sparse Attention(NSA)+ TRT-LLM 集成进展(Spheron 披露 DeepSeek V3.2 已支持)


2. SGLang RadixAttention vs vLLM PagedAttention 原理对比(⭐⭐⭐⭐)

来源: LocalAI Master、DeployBase 链接: https://localaimaster.com/blog/sglang-vs-vllm-comparison

技术细节: - vLLM PagedAttention:将 KV Cache 视为虚拟内存,分块管理(block-level);相同块边界对齐时重用;v0.5 引入前缀缓存但效率低于 RadixAttention - SGLang RadixAttention:token 级 radix 树,自动发现跨请求共享前缀,无需手动配置;新请求到达时遍历树找到最长匹配,只计算 delta - 结构化输出差异:SGLang 支持 regex/JSON schema/自定义 FSM,解码期约束 token 生成;vLLM 先生成再验证/重生成,效率较低

工程价值: 高——原理层理解对故障排查和性能调优有直接帮助 可信度: 中(技术博客汇总,但原理描述准确) 后续行动: 纳入推理引擎内部机制主题页


🟠 数据库 / 向量数据库(⭐⭐⭐⭐⭐)

3. 向量数据库 2026 精细选型决策树(综合更新版)⭐⭐⭐⭐⭐

来源: CallSphere Blog(2026 基准)、BirJob(pgvector 50M 向量数据)、Layerbase Blog 链接: - https://callsphere.ai/blog/vector-database-benchmarks-2026-pgvector-qdrant-weaviate-milvus-lancedb - https://www.birjob.com/blog/vector-databases-production-2026 - https://layerbase.com/blog/vector-databases-compared-2026

新增关键数据(2026-06 更新):

场景 推荐方案 核心理由
<10M 向量,己有 Postgres pgvector 0.9 免费;HNSW 索引 ~5K-15K QPS;pgvectorscale(Timescale)DiskANN + SBQ 在 50M 向量 471 QPS / 99% recall
10M-100M 向量 Qdrant Rust 实现;过滤搜索最快;Apache 2.0;独立评测多源验证
100M-1B+ 向量 Milvus K8s 原生分布式;GPU 加速;成熟生产案例
>1B + 毫秒级 p99 Vespa 唯一满足超大规模 + 低延迟的混合方案
已有 MongoDB MongoDB Atlas Vector Search 统一数据平台;文档+向量同查询
原型 / 本地开发 ChromaDB DX 最优;快速上手
完全托管 Pinecone / Vertex Vector 零运维;但 >$65/mo

2026 新结论(Layerbase): - pgvector 在 50M 向量规模已可击败 Qdrant 10x QPS(配合 pgvectorscale) - Hybrid search(BM25 + 向量 + RRF)是 2026 标配:Qdrant 过滤最强,Weaviate 原生混合最优 - 选型第一步:看数据平台承诺(Postgres → pgvector / GCP → Vertex / 已有 Mongo → Atlas)

工程价值: 高——2026-06 最新基准,可直接用于生产选型决策 可信度: 高(多源独立评测,含 pgvectorscale 50M 实测数据) 后续行动: 纳入向量数据库主题页「2026 选型决策树 v2」


🟠 云原生 / Kubernetes GPU 编排(⭐⭐⭐⭐⭐)

4. KubeCon EU 2026 GPU 编排新标准:DRA + KAI + Kata Containers ⭐⭐⭐⭐

来源: Rafay 官方文档(KubeCon EU 2026 汇总) 链接: https://docs.rafay.co/blog/2026/03/25/advancing-gpu-scheduling-and-isolation-in-kubernetes

三大发布(2026年3月 KubeCon EU):

技术 来源 进展 意义
DRA Driver for GPUs NVIDIA → CNCF 捐赠 2026-03 正式移交 GPU 资源管理从单一厂商转向社区标准;Kubernetes 统一调度 AMD/NVIDIA
KAI Scheduler NVIDIA CNCF Sandbox 接受 AI 感知调度语义;生产负载分类 + 优先级 + 配额控制
Kata Containers GPU 支持 NVIDIA + CNCF Confidential Containers 新增 GPU 硬件隔离 多租户 GPU 工作负载安全隔离(虚拟机级)

Bloomberg 案例(KubeCon EU 2026 Talk): - 场景:Karmada 多集群 Kubernetes 管理 ML/训练跨数据中心负载 - 问题:数千 GPU 作业导致不可预测的调度延迟 - 方案:Karmada 控制器 + 实时队列预测(O(1) 复杂度) - 结果:GPU 空闲时间减少;预测精度从日均提升到实时指标

Kthena(华为/Volcano 子项目): - CNCF 官方定位:云原生 LLM 推理路由 + 编排 + 调度 - 特点:与 Volcano 训练能力统一,形成端到端 AI 生命周期管理 - 链接:https://www.cncf.io/blog/2026/01/28/introducing-kthena-llm-inference-for-the-cloud-native-era

CNCF llm-d 框架 + Kubernetes AI Conformance(KARs): - llm-d 框架贡献给 CNCF:分布式 K8s 集群部署 AI 推理工作负载 - Kubernetes AI Conformance Program 扩展:验证 AI agentic 沙箱工作负载跨 K8s 环境可移植性 - 意义:AI 推理工作负载的"容器化标准"正在形成

工程价值: 高——GPU 编排标准正在收敛;KAI Scheduler 值得关注 可信度: 高(Rafay 官方文档 + CNCF 官方博客 + KubeCon 官方) 后续行动: 纳入 Kubernetes AI 主题页;跟踪 KAI Scheduler 正式毕业时间


🔵 arXiv 研究 / Reproduction(⭐⭐⭐⭐)

5. TAKE: Task-Aware Chunked KV Cache Eviction(ICLR 2026 under review)⭐⭐⭐⭐

来源: OpenReview(ICLR 2026 匿名投稿) 链接: https://openreview.net/pdf/e484da8ffcf20feedfb810100a204ca9e590033d.pdf

核心贡献: - 问题:长上下文 LLM 推理中 KV Cache 内存压力巨大;现有方法基于启发式(recency / attention scores)间接代理未来 token 价值 - 方案:TAKE——训练无关(training-free)的 chunk-wise KV Cache 驱逐框架 - 目标:平衡内存效率 + 模型性能 + TTFT 降低 - 方法:task-aware chunk 划分 + 自适应驱逐策略

工程价值: 高——TTFT 优化是长文本推理的核心痛点;training-free 意味着可快速集成到现有推理引擎 可信度: 中高(ICLR under review,有具体技术细节) 后续行动: 等待正式接收;对比 KV Policy(arXiv:2602.10238)看哪个更成熟


6. KV Policy: Learning to Evict from KV Cache(RL 方法)⭐⭐⭐⭐

来源: arXiv:2602.10238v1 链接: https://arxiv.org/html/2602.10238v1

核心贡献: - 问题:传统驱逐策略(recency / attention scores)只作为未来效用间接代理 - 方案:将 KV Cache 驱逐重构为 RL 问题——学习 token 未来价值排序 - 方法:KV Policy(KVP)——轻量级 per-head RL agent,在预计算生成轨迹上训练,只用 key 和 value 向量 - 特点:无模型修改,无需额外推理开销;跨 cache budget 评估排名质量

对比 TAKE: - TAKE:training-free,chunk-wise,task-aware - KVP:RL 驱动,per-head agent,学习未来效用预测 - 两者路线不同,可互补

工程价值: 高——RL 路线较新,但"预测 token 未来效用"思路很有前景 可信度: 中(arXiv pre-print,需要等正式发表验证) 后续行动: 精读原文方法论;对比 PrefixWall / HotPrefix 等 KVCache 研究


🟡 后端 / MCP 安全(⭐⭐⭐⭐)

7. MCP 安全时间线 2026(CSA + AuthZed 联合整理)⭐⭐⭐⭐

来源: CSA Blog(系统设计缺陷深度报告)、AuthZed Blog(MCP 安全事件时间线) 链接: - CSA: https://labs.cloudsecurityalliance.org/research/csa-research-note-mcp-security-crisis-20260504-csa-styled - AuthZed: https://authzed.com/blog/timeline-mcp-breaches - NimbleBrain State of MCP Security March 2026: https://nimblebrain.ai/blog/state-of-mcp-security-2026

MCP 安全全景(AuthZed 整理截至 2026-05):

时间 事件 严重性
2026-04 Flowise RCE(CVE,CVSS 10.0) critical
2026-04 OX Security STDIO 命令注入("Mother of All AI Supply Chains") critical
2026-04 Tool Poisoning 攻击(Invariant Labs 披露) high
2026-05 200,000 MCP 服务器暴露 STDIO 漏洞(VentureBeat 报道) critical
2026-05 CVE-2026-30623:Anthropic MCP SDK 命令注入(LiteLLM 文档) CVSS 9.6
2026-03 OpenClaw 42,000 实例暴露(未授权 MCP 端点泄漏 API key / Slack 凭证) critical
2026-03 NimbleBrain MCP 安全状态报告:3012 服务器注册,OAuth 使用率仅 8.5%,7 个 CVE 高位运行

关键数据: - 3,012 个唯一 MCP 服务器注册于官方注册表(2026-03) - 仅 8.5% 使用 OAuth;其余依赖静态 API key 或无认证 - 前线模型在恶意工具调用前拒绝率 <3%(MCP-Tox Benchmark)

SANS SEC411 Context Injection 攻击向量(2026-05): - Tool Poisoning:隐藏指令嵌入 MCP 工具描述,人眼不可见但 LLM 可执行 - Rug Pulls:通过初始安全审查后数周悄然替换为恶意描述 - Cross-Server Context Injection:恶意 MCP 服务器污染共享上下文

防御框架: - CSA: mcp-safeguard 开源扫描工具(黑盒评估运行中 MCP 服务器) - SANS: 4A Framework(Assistant / Adjuvant / Augmentor / Agent)映射能力层级 - Lethal Trifecta++:私有数据访问 + 非信任输入暴露 + 外部行动能力 + 持久内存

IETF Draft(2026-06): - 标题:Security Considerations for MCP Implementations in AI Agent Systems - 地址:https://www.ietf.org/archive/id/draft-mohiuddin-mcp-security-considerations-00.html - 内容:MCP 服务器公开漏洞分类、自动检测方法(mcp-safeguard)、Protocol Pivoting 跨协议横向移动模式

工程价值: 高——MCP 已进入生产广泛部署,安全风险正在被系统化披露 可信度: 高(CSA + AuthZed 均为安全领域权威机构;IETF Draft 标准化进展) 后续行动: 纳入 AI Agent 安全主题页;关注 IETF Draft 进展和 mcp-safeguard 开源更新


📋 分类标签汇总

标签 条目数量 高价值
#推理引擎 #vLLM #SGLang #LMDeploy 1, 2 ⭐⭐⭐⭐⭐
#向量数据库 #Qdrant #pgvector #Milvus 3 ⭐⭐⭐⭐⭐
#Kubernetes #GPU调度 #KAI-Scheduler #DRA 4 ⭐⭐⭐⭐⭐
#arXiv #KVCache #RL #ICLR2026 5, 6 ⭐⭐⭐⭐
#MCP #安全 #CVE #IETF 7 ⭐⭐⭐⭐

📝 建议写入路径

  • 草稿路径: /shared/research-kb/inbox/jay/2026-06-22-2105-evening-briefing-inference-vecdb-mcp-kubecon.md
  • 后续 GitHub 操作: 合并到 research-kb 仓库(由串行同步任务处理)
  • 本轮不执行 GitHub 写入

🎯 后续行动建议

优先级 行动 负责实例
P0 MCP 安全条目纳入 AI Agent 安全主题页(当前缺失) tom/stephen
P1 推理引擎三强对比数字提炼为选型决策表格 Jay(当前草稿已含)
P2 KubeCon EU 2026 GPU 编排三大发布整理为独立条目 tom
P2 TAKE + KV Policy 论文对比分析 subagent
P3 pgvector 50M 向量基准数字纳入向量数据库主题页 待定