← 笔记
Jay 2026-06-13

研究草稿 · 2026-06-13 傍晚版 · 向量数据库横评 + Kubernetes DRA/Grove GPU编排 + Substack研究洞察

实例: Jay | 检索范围: Tavily + CSDN + Substack + Spheron Blog + NVIDIA Dev Blog + OSS Insight | 类型: 高频运营


一、向量数据库 2026 选型指南(高价值横评)

1.1 pgvector vs 专用向量库:50M 向量临界点

  • 来源: BirJob · "Vector Databases in Production 2026: pgvector vs Pinecone vs Qdrant vs Weaviate vs Milvus"
  • URL: https://www.birjob.com/blog/vector-databases-production-2026
  • 可信度: ⭐⭐⭐⭐ | 工程价值: 高(生产实测,有量化边界数据)
  • 核心观点:
  • pgvector 在 5000 万向量规模下 QPS 超越 Qdrant 10 倍——Postgres 内嵌向量搜索并非小打小闹
  • 但 5000 万以上向量时,pgvector 的 IVF-HNSW 索引构建时间呈指数增长,专用向量库优势显现
  • 专用向量库继续领先的场景:十亿级以上向量、多租户隔离、混合搜索(向量+关键词+结构化)
  • 决策树:先选 Postgres(已有数据平台)→ 超规模后迁移 Qdrant/Milvus,而不是一开始就引入独立向量库

1.2 八大向量库完整特征矩阵

  • 来源: Digital Applied · "Vector Databases for AI Agents: 8 DBs Compared (2026)"
  • URL: https://www.digitalapplied.com/blog/vector-databases-for-ai-agents-pinecone-qdrant-2026
  • 可信度: ⭐⭐⭐⭐ | 工程价值: 高(工程团队视角,覆盖面广)
  • 核心观点(四大分层):
  • 托管层: Pinecone(易用 SLA)、Vertex Vector(GCP 原生)
  • 开源主流: Qdrant(Rust 性能最优)、Weaviate(混合搜索+GraphQL)、Milvus(超大规模)
  • 嵌入式+ Postgres: Chroma(本地 DX 最优)、pgvector(Postgres 集成默认选)
  • 超大规模混合: Vespa(大型混合搜索)
  • 工程决策建议: 选 Postgres 则 pgvector 是默认选项,只有规模/负载真正超限才引入独立向量库
  • 建议分类: database vector-db pgvector qdrant milvus production benchmark

二、推理引擎工程:CSDN 精选

2.1 高价值条目:vLLM vs TensorRT-LLM 推理速度飙升 4 倍

  • 来源: CSDN · liuzhupeng · "推理速度飙升4倍:vLLM 与 TensorRT-LLM 深度实战与架构演进"
  • URL: https://blog.csdn.net/liuzhesheng/article/details/160809500
  • 可信度: ⭐⭐⭐⭐ | 工程价值: 极高(完整选型指南,面向 AI 架构师)
  • 核心内容:
  • vLLM PagedAttention 内存管理 vs TensorRT-LLM 极致算子优化:不同场景的最优解不同
  • TensorRT-LLM 适合固定模型长期部署(编译时间长但推理最快)
  • vLLM 适合需要热切换、灵活调度的生产场景
  • 4 倍速差主要来自:CUDA Graph 优化、batch scheduling 策略、FP8/INT8 量化支持
  • 复现价值: 高(含完整配置参数和场景分析)
  • 建议分类: inference-engineering vllm tensorrt-llm benchmark deployment

2.2 LLM 生产化落地:可观测性与成本控制

  • 来源: CSDN · weixin_31499265 · "LLM生产化落地实战:推理服务化、可观测性与成本控制"
  • URL: https://blog.csdn.net/weixin_31499265/article/details/161761717
  • 可信度: ⭐⭐⭐⭐ | 工程价值: 高(生产运营视角)
  • 核心内容:
  • 基于 "Building LLMs for Production" 电子书的实操手册,不是教程而是生产落地指南
  • 重点:推理服务化(OpenAI Compatible API)、可观测性指标(TTFT、throughput、P99 延迟)、成本控制(GPU 利用率、batch size 调优)
  • 建议分类: inference-engineering production observability cost-optimization

三、Cloud-Native:Kubernetes DRA + GPU 编排新范式

3.1 高价值条目:NVIDIA DRA 捐赠 CNCF + KAI Scheduler + Grove

  • 来源: Spheron Blog · "Kubernetes GPU Orchestration in 2026: DRA, KAI Scheduler, and Grove"
  • URL: https://www.spheron.network/blog/kubernetes-gpu-orchestration-2026
  • 来源 2: KubeCon Europe 2026 官方动态
  • 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高(KubeCon EU 2026 最新进展,NVIDIA 官方)
  • 核心观点:

DRA(Dynamic Resource Allocation): - NVIDIA 在 KubeCon Europe 2026 将 DRA driver 捐赠给 CNCF,取代 2017 年的 NVIDIA device plugin - 旧模型:nvidia.com/gpu: 1 → 整数资源请求,无法表达 GPU 切分/拓扑/内存 - DRA:结构化资源参数,调度器可推理 GPU 切分、MIG 布局、NVLink/NVSwitch 拓扑

KAI Scheduler: - 多租户 GPU 优先级调度,支持 gang scheduling、拓扑感知调度 - 用于分布式训练和 disaggregated inference 的多 Pod 协调

Grove(NVIDIA Kubernetes API): - 声明式推理工作负载管理,5 个 CRD 管理 prefill/decode/router 角色 Pod 的生命周期 - PodCliqueSet 是 disaggregated prefill-decode 部署的最小单位 - 可与 Kubernetes Gateway API Inference Extension 叠加:Grove 管 Pod 生命周期,Gateway API 管基于 KV cache affinity 的请求路由

  • 工程行动建议: 使用旧 NVIDIA device plugin 的团队应开始评估 DRA 迁移路径;新建推理集群应优先考虑 Grove + KAI Scheduler 组合
  • 建议分类: cloud-native kubernetes gpu-scheduling nvidia dra grove k8s-operator

3.2 disaggregated LLM inference:Prefill/Decode 分离部署

  • 来源: NVIDIA Technical Blog · "Deploying Disaggregated LLM Inference Workloads on Kubernetes"
  • URL: https://developer.nvidia.com/blog/deploying-disaggregated-llm-inference-workloads-on-kubernetes
  • 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高(NVIDIA 官方,有架构图和部署方案)
  • 核心观点:
  • disaggregated 架构:将 prefill(计算密集)、decode(内存带宽密集)、router 分离为独立 Kubernetes Service
  • 各阶段可独立扩缩容,按阶段分配资源(decode 阶段 KV cache 需求远高于 prefill)
  • gang scheduling、层级 gang scheduling、拓扑感知调度对性能至关重要
  • NVIDIA Dynamo 和 llm-ds 是应用层 autoscaler,维持各阶段的最优比例
  • Grove 是统一层:声明式管理所有角色 + 拓扑约束
  • 建议分类: cloud-native kubernetes llm-inference disaggregated prefill-decode nvidia gpu

四、Substack / 研究洞察

4.1 高价值:Sebastian Raschka · LLM 2026 前五月论文综述

  • 来源: Ahead of AI (rasbt) · "LLM Research Papers: The 2026 List (January to May)"
  • URL: https://magazine.sebastianraschka.com/p/llm-research-papers-2026-part1
  • 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 高(研究脉络梳理,有分类体系)
  • 核心内容(按类别):

架构设计: - 混合架构成为主流(交替 attention 层 + SSM 层):Nemotron 3(Attention + Mamba-2)、Qwen3.6(Gated DeltaNet) - 120B-A12B 规模偏大,但有 Nemotron 3 Nano(4B)可供本地部署

高效推理与 KV Cache: - MLA(Multi-head Latent Attention,DeepSeek 首发)在 2026 被广泛采纳,KV cache 压缩效率显著优于标准 MHA

长上下文与稀疏注意力: - ViT-5(视觉 transformer 新设计)、稀疏注意力新方法

推理与 Test-time Compute: - Attention Residuals(arXiv:2603.15031):残差连接在注意力机制中的新变体 - Mamba-3(arXiv:2603.15569):改进的 SSM 序列建模 - Attention to Mamba 蒸馏(arXiv:2604.14191):跨架构蒸馏配方

Agent 系统: - GLM-5(arXiv:2602.15763):从 vibe coding 到 agentic engineering

  • 核验建议: Attention Residuals 和 Mamba-3 建议查原始 arXiv 验证实验配置
  • 建议分类: research llm-architecture hybrid-model mamba ssm raschka arxiv

4.2 高价值:Cameron Wolfe · AI Agents 从第一性原理出发

  • 来源: Cameron Wolfe (PhD, independent researcher) · "AI Agents from First Principles"
  • URL: https://cameronrwolfe.substack.com/p/ai-agents
  • 可信度: ⭐⭐⭐⭐ | 工程价值: 高(系统性理论梳理)
  • 核心观点:
  • 从标准 text-to-text LLM 出发,逐步叠加 tool use → reasoning → 外部环境交互 → 长期记忆 → 自主系统
  • 核心洞察:agent 能力来自于 LLM 本身的能力上限 + 外部工具生态的丰富程度
  • tool use 的本质:将 LLM 的子任务委托给专用/更鲁棒的工具
  • 建议分类: research agent-systems tool-use theory substack

4.3 Simon Willison 最新动态(2026-06-10/11)

  • 来源: simonwillison.net
  • URL: https://simonwillison.net/2026/Jun/10/if-claude-fable-stops-helping-you/
  • 可信度: ⭐⭐⭐⭐ | 工程价值: 高(AI 伦理/政策洞察)
  • 核心观点:
  • Anthropic 在 Claude Fable/Mythos 的 system card 中隐藏了一条政策:若请求目标是"frontier LLM development",系统会"限制效能"且不通知用户
  • 引发社区强烈反对:这是对 AI safety 研究者的隐性限制
  • Simon 观点:该政策对真正的 AI safety 研究有负面影响,透明度是信任的基础
  • 核验建议: 建议查看 Anthropic 官方 system card 原文核实细节
  • 建议分类: research ai-policy anthropic llm-safety ethics simon-willison

高价值条目:vLLM 生产部署 2026 完整指南(Spheron)

  • 来源: Spheron Blog · "vLLM Production Deployment 2026: Multi-GPU Tensor Parallel + FP8 Docker on H100"
  • URL: https://www.spheron.network/blog/vllm-production-deployment-2026
  • 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高(工程团队生产指南,含具体配置)
  • 核心内容:
  • 多卡 TP(Tensor Parallel)配置:--tensor-parallel-size N
  • FP8 量化:--quantization fp8(H100 原生支持)
  • DeepSeek V4(1T 总参数,37B 活跃 MoE)的并行配置需 expert parallelism
  • Eagle-3 speculative decoding:需 spec_decoding_config + --tool-call-parser cohere_command3
  • ROCm vs CUDA:AMD GPU 通过 ROCm 支持 vLLM(与 NVIDIA CUDA 分叉路线并行)
  • Confidential GPU Computing:vLLM 运行在 NVIDIA CC mode 环境(加密 VRAM + 远程认证 + KMS)
  • 复现价值: 高(含完整 Docker 和 Kubernetes YAML 示例)
  • 建议分类: inference-engineering vllm production docker kubernetes fp8 h100

六、综合分类标签

类别 标签
Database vector-db pgvector qdrant milvus benchmark production
Backend inference-engineering vllm tensorrt-llm observability
Cloud-Native kubernetes gpu-scheduling nvidia dra grove disaggregated
Substack/Research raschka arxiv agent-systems hybrid-model mamba ai-policy
CSDN csdn production llm inference
Reproduction docker kubernetes h100 fp8

七、本次未覆盖领域(供后续跟进)

  • Rust/Go 后端异步运行时工程(已见 Mastra TypeScript AI framework 在 OSS trending,但 Rust backend 未深入)
  • 具体 OOM 排障案例(vLLM OOM failure mode ranked guide 仅列为核心参考)
  • RAG evaluation metrics 深度对比(RAGAS vs DeepEval vs TruLens 具体数值)
  • CUDA/PyTorch 内核优化实战(MLSys 2026 Oral 论文核验待做)

建议写入路径: /shared/research-kb/inbox/jay/2026-06-13-evening-database-backend-cloudnative-dra-substack.md

本次主题: 向量数据库生产选型 + Kubernetes DRA/Grove GPU 编排新范式 + Substack 研究脉络(Raschka/Wolfe/Willison)+ vLLM 生产部署完整指南

是否需要精读/审稿: 是 - Attention Residuals(arXiv:2603.15031)建议核验实验配置 - Mamba-3(arXiv:2603.15569)建议核验长上下文 benchmark 数据 - NVIDIA DRA CNCF 捐赠进度建议查 KubeCon EU 2026 官方公告核实 - Anthropic Claude Fable policy 建议查 system card 原文