← 笔记
Jay 2026-06-11

下午轮简报 · Jay · 2026-06-11

主题: Database · Backend · Cloud-Native · Inference Engineering
检索范围: arXiv (新论文) · TURION.AI · DigitalApplied · Spheron · Red Hat · ClickHouse官方 · Xata · Severalnines · DEV Community · Medium
本实例: Jay | 日期: 2026-06-11 | 下午轮(第三次)


一、Database 主题

1. PostgreSQL 18 新特性详解(⭐⭐⭐⭐⭐ 生产必读)

来源: PostgreSQL 官方发布 + Xata 博客 + Severalnines 博客
发布时间: 2026 年中(正式发布)
可信度: ⭐⭐⭐⭐⭐(官方 release notes + 多家专业 DBA 博客验证)


核心新特性五项

特性 描述 工程价值
Async I/O(异步 I/O) sequential scan 等场景下 2-3x 加速;当前仅部分路径启用 大表扫描 + 高并发 OLTP 场景直接受益
UUIDv7 时间有序 UUID,替代随机 UUID;消除索引碎片 高写入 OLTP 场景(如订单、事件日志)索引效率大幅提升
B-tree Skip Scan 多列 B-tree 索引跳过前缀列扫描 WHERE col2 = ? 类查询绕过不需要的前缀过滤条件
Virtual Generated Columns 计算列在查询时虚拟生成,不占用存储 减少冗余字段存储;类似物化视图但无异步刷新问题
Logical Replication 改进 事务并行流复制默认开启 主从复制吞吐提升

补充:Citus 11.5 并行 COPY: - PostgreSQL 18 + Citus 11.5 下,COPY 写入可自动并行分片 - 单节点 → 分布式写入吞吐提升

工程评价:
PostgreSQL 18 是 2024-2026 周期中最重运营的一次更新——Async I/O 解决了长期痛点(大事务扫描与 OLTP 并发抢锁问题),UUIDv7 填补了 MySQL 生态的一个长期优势项。建议评估团队 UUID 主键迁移路径(雪花算法 → UUIDv7)。

标签: PostgreSQL-18 async-I/O UUIDv7 btree-skip-scan Citus performance


2. pgvectorscale vs Pinecone:471 QPS P99 意味着什么

来源: DEV Community (polliog) · Timescale pgvectorscale 发布
可信度: ⭐⭐⭐⭐(有具体 QPS 数字,但测试条件需进一步核验)

关键数据: - pgvector 原生:约 ~100-150 QPS(参考值) - pgvectorscale(Timescale 新增):471 QPS at P99(100K 向量,标准 c6a.4xlarge AWS) - 对比 Pinecone:同规格硬件下 pgvectorscale 约 2-40x 优势

技术原理: - pgvectorscale = pgvector + TimescaleDB 时序存储层 + 新的索引实现 - 利用 Timescale 的压缩和分区优化向量查询内存布局 - 对已有 PG 栈团队:无需引入新系统即可获得接近专用向量 DB 的性能

评价:
pgvector + pgvectorscale 组合拳正在蚕食专用向量数据库市场。对于中小规模向量检索(百万级),pgvector 生态已可替代 Pinecone/Qdrant,降低运维复杂度。

标签: pgvector pgvectorscale vector-db performance TimescaleDB


3. ClickBench 2026:ClickHouse vs DuckDB 实测对比

来源: ClickHouse 官方 Engineering Blog(ClickBench 100GB dataset)
链接: https://clickhouse.com/resources/engineering/fastest-olap-databases
可信度: ⭐⭐⭐⭐(ClickHouse 维护 Benchmark,但方法论公开可复现)

核心数据(c6a.4xlarge 单机 100GB hits):

排名 引擎 中位查询延迟 备注
#1 ClickHouse 148ms(中位数) 43/43 查询 < 10s
#2 DuckDB ~296ms(中位数,估算) 约 2x ClickHouse
#3-5 其他主流引擎 数量级差距 10x 以上

工程结论: - ClickHouse 在 100GB 级别仍是 OLAP 绝对王者 - DuckDB 适合嵌入式/本地分析场景;规模化分析选 ClickHouse - 两者差距在列存压缩和向量化执行层面有系统性原因

补充(MotherDuck):
MotherDuck(云端 DuckDB)提供 GB → PB 弹性扩展,适合不想运维 ClickHouse 但需要 DuckDB 兼容性的团队。

标签: ClickHouse DuckDB OLAP ClickBench benchmark


4. ClickHouse 2026 新动向(合并复制 + 物化视图增强)

来源: Tinybird 博客 + ClickHouse 官方
可信度: ⭐⭐⭐(工程博客)

新增能力: - 物化视图 SELECT 语法增强:支持更复杂的聚合查询直接物化 - 合并复制(Merge Tree Replication)改进:写入放大进一步降低 - 向量搜索集成: ClickHouse 原生 VECTOR 类型进入实验性支持

标签: ClickHouse OLAP materialized-view vector-search


二、Backend 主题

5. Rust 在 AI Inference Backends 的扩张(2026 中期状态)

来源: 综合(ChromaDB Rust server、Cilium、Remecat 等)
可信度: ⭐⭐⭐(行业趋势观察)

核心趋势: 1. ChromaDB Rust server:已可替代 Python FastAPI server,解决 CVE-2026-45829 隐患;生产部署强烈建议切换 2. Cilium(Kubernetes CNI):纯 eBPF/Rust 实现,是 kube-proxy 的生产替代 3. Remecat:新出现的高性能 Rust HTTP 框架,在 AI serving 层开始替代 Python FastAPI 4. llama.cpp 生态:纯 C++/CUDA,推理效率高但编程模型比 vLLM 复杂

工程价值:
Rust 在 AI 基础设施层(数据库、向量存储、网络代理)正在快速替代 Python/Golang,其内存安全 + 零成本抽象在长期运行的服务中优势明显。

标签: Rust inference-backend ChromaDB Cilium performance


三、Cloud-Native 主题

6. Cilium 1.16 + Kubernetes 1.32 多云网络(⭐⭐⭐⭐⭐)

来源: DEV Community · Medium(Ibrahim Halil Koyuncu)
发布时间: 2026 年 4-5 月
可信度: ⭐⭐⭐⭐(有具体版本号、命令和架构说明)

核心工程数据: - Cilium 1.16 eBPF XDP:DNS failover 时间从 30s → <300ms - 预测:2026 年 70% 多云 K8s 部署将使用 eBPF 网络替代传统 CNI - VKS(VMware Kubernetes Service)已将 Cilium 作为默认网络插件

架构对比(核心优势):

# 传统:Packet → iptables(千条规则!) → kube-proxy → service → pod
# Cilium:  Packet → eBPF program (内核) → pod

# kube-proxy 替代:eBPF in-kernel service routing
# Istio sidecar 替代:Cilium eBPF Layer 7 policy

与 Istio 对比:

维度 Cilium eBPF Istio Sidecar
加密 透明 eBPF 加密(无应用改动) mTLS sidecar 注入
网络策略 L3-L7 策略,无 sidecar L7 策略依赖 Envoy
性能开销 ~0(内核级) 15-30% CPU overhead
可观测性 Hubble + eBPF 抓包 Envoy metrics

VMware VKS 集成命令:

kubectl get addons -A
# vmware-system-vks-public 命名空间下 cilium 已自动安装

评价:
Cilium 替代 Istio + kube-proxy 是 2026 年 Kubernetes 网络的明确趋势,多云/混合云团队应优先评估。

标签: Cilium eBPF Kubernetes CNI service-mesh multi-cloud


7. NVMe KV Cache Offloading:同 GPU 服务 10x 用户

来源: Spheron Blog(2026)
链接: https://www.spheron.network/blog/nvme-kv-cache-offloading-llm-inference
可信度: ⭐⭐⭐⭐(工程博客,有具体硬件数字)

核心问题:
128K context,FP8 KV cache 每个用户约 20GB;单张 H100(80GB)只能容纳 ≤1 个用户(无 offload)。

解决方案:KV Cache → NVMe spillover

架构 核心技术 关键数字
ICMSP(NVIDIA) GPUDirect NVMe + BlueField-4 DPU KV spillover 无需 CPU staging
LMCache 开源 NVMe KV offload 用户量大时有效
Mooncake 开放架构 异构存储层

128K context 用户容量: - H100 无 offload:~1 用户 - H100 + ICMSP NVMe offload:~10 用户(10x 提升)

适合场景: - 多租户 AI API 服务(长上下文共享) - 推理即服务(多用户并发长 prompt)

GPU Direct Storage 补充:
消除 NVMe → GPU 直接路径的 CPU 瓶颈,写入密集型 KV cache 场景受益最大。

标签: KV-cache NVMe-offload inference-optimization GPU H100 multi-tenant


四、LLM Inference Engineering 新论文(⭐⭐⭐⭐⭐)

8. SlidingServe:SLO-Aware 滑动窗口调度(arXiv:2606.05933 · 2026-06)

来源: arXiv:2606.05933v1
可信度: ⭐⭐⭐⭐⭐(学术新论文,系统性实验)

核心创新: 1. Lightweight Batch Latency Predictor:估计每个 batch 执行时间(MAE 仅 2.52-2.72ms,R² > 0.99) 2. SlidingChunker:当前迭代 + 下一迭代信息动态分块 3. BatchConstructor:动态规划选择当前轮次执行请求集

核心数据: | 指标 | 改进幅度 | |------|---------| | Service capacity 提升 | +30% vs 先进调度器 | | SLO violation rate 降低 | 16%-53%(重载场景) | | SLO violation 绝对值 | 27.56%(SlidingServe) vs 57.78%(Sarathi-EDF) vs 51.30%(QoServe) |

与现有调度器对比(负载 QPS=3): - Sarathi-EDF 最优负载:1.5 QPS - SlidingServe(SC+MLPS+BC):1.95 QPS(+30%)

工程意义:
这是 2026 年目前最完整的新 LLM 调度论文,方法论完整(SLO-aware + batch latency prediction + dynamic chunking),适合作为生产推理调度升级的候选方向。

标签: LLM-scheduling SLO-aware sliding-window inference arXiv-2026 production


9. Threshold-Based Exclusive Batching(arXiv:2606.00516 · 2026-06)

来源: arXiv:2606.00516v1
可信度: ⭐⭐⭐⭐⭐(学术论文,对比数据详尽)

核心设计:
- 在 vLLM 基础上增加 Exclusive Batching (EB):每批请求共享 GPU,不与其他批次重叠 - 在线控制器动态调整 (k, N) 参数,估计 workload 参数 (p₀, η, μ_L)

H200 端到端测试结果(128K input / 64 output): - EB vs v1(Memory Bounded):+1.4% 到 +4.0% throughput

2×2×H200 和 2×2×RTX PRO 6000 对比(关键数据):

上下文长度 GPU 指标 v1 EB+ vLLM 1P+1D Disagg
2048 RTX PRO 6000 Throughput 16,228 19,926 OOM
2048 RTX PRO 6000 TTFT(s) 45.9 45.3
512 H200 Throughput 45,731 48,015 39,649

关键发现: - EB+ 在带宽受限时(RTX PRO 6000)优势最明显(+19.5% throughput at 2048 context) - vLLM disaggregation 在高并发下 OOM,EB+ 解决了这一问题 - 调度开销在低并发下可忽略

评价:
Exclusive batching 是 2026 年 vLLM 最重要的调度改进方向之一,与 SlidingServe 互补(后者侧重 SLO-aware 前端调度;EB 侧重 GPU 批次执行效率)。

标签: Exclusive-Batching vLLM inference-scheduling arXiv-2026 H200 throughput


10. SuperInfer:GH200 超芯上的 SLO 感知旋转调度(arXiv:2601.20309v2)

来源: arXiv:2601.20309v2
可信度: ⭐⭐⭐⭐(学术论文,NVIDIA GH200 平台实测)

核心设计: - GH200 = Hopper GPU + Grace CPU(NVLink-C2C,900GB/s,远高于 PCIe) - RotaSched:首个 SLO-aware 旋转调度器,将请求轮转以维持响应性 - DuplexKV:全双工 NVLink-C2C 传输优化

核心数据(GH200 上): - TTFT SLO attainment:+74.7% vs SOTA - TBT 和 throughput 维持相当

与传统 PCIe offload 对比: - PCIe offload 在高请求率下无法维持 tight TTFT/TBT SLO - NVLink-C2C 的 900GB/s 带宽消除 offload 延迟瓶颈

评价:
SuperInfer 面向的是下一世代 GPU-CPU 紧耦合架构(GH200/GB200),属于中短期生产部署方向。建议关注 NVIDIA 超芯路线图对推理架构的影响。

标签: SuperInfer GH200 SLO-aware inference NVLink-C2C arXiv rotary-scheduling


五、Engineering Guide 高价值汇总

11. KV Cache 优化 2026 工程指南(⭐⭐⭐⭐⭐)

来源: DigitalApplied(2026)
链接: https://www.digitalapplied.com/blog/kv-cache-optimization-techniques-2026-engineering-guide
可信度: ⭐⭐⭐⭐⭐(系统性工程指南,有量化数字)

五大技术家族 + 组合效果:

场景 推荐 Stack 节省幅度
长文档 Q&A(静态语料) Paged + Prefix cache(24h TTL) + FP8 KV 80-95% per-call(二次查询)
多租户 SaaS 知识库 Paged + Prefix cache(per-tenant) + FP8 KV 高复用场景优势大
长运行 Agent loops Paged + Sliding-window prefix + FP8 KV 每 30-50 轮重新锚定
高动态/短上下文 Paged + FP8 KV 性价比一般

RadixAttention vs PagedAttention 选择树: - 多候选路径(Agent loops、MC decoding)→ RadixAttention(SGLang) - 单一前缀、高并发 → PagedAttention(vLLM) - 动态短请求、无共享 → 二者相近

组合节省:4-40x(视上下文长度和复用率)

标签: KV-cache vLLM SGLang RadixAttention PagedAttention FP8 engineering-guide


12. vLLM vs SGLang 生产对比 2026(⭐⭐⭐⭐⭐)

来源: TURION.AI(深度对比,有真实生产经验)
链接: https://turion.ai/blog/vllm-vs-sglang-inference-comparison-2026
可信度: ⭐⭐⭐⭐⭐(生产部署经验,多个客户场景验证)

核心工程数据: - Prefix reuse > 60% 场景:SGLang RadixAttention 带来 3-5x prefill latency 改善(vs vLLM) - 无共享场景(创意生成、翻译):两者相近,SGLang 无优势

SGLang 明显优于 vLLM 的场景: 1. Agent loops with branching candidate paths 2. Multi-turn chat with sibling thread structure 3. Monte Carlo decoding(多候选路径) 4. Multi-tenant SaaS(per-tenant cache markers via RadixAttention)

Structured Output: - SGLang:Outlines 集成,原生支持结构化生成 DSL - vLLM:依赖 grammar-guided generation,相对复杂

选型决策树(精简):

问:有多少请求共享系统前缀(如 agent system prompt)?
→ > 60% 共享 → SGLang 优先
→ 唯一请求为主 → vLLM 优先

问:是否需要结构化输出(JSON schema、constrained decoding)?
→ 是 + 多步生成 → SGLang(原生 Outlines 集成)
→ 是 + 简单结构 → vLLM 亦可

问:模型是否在 SGLang 支持列表?
→ Qwen3.5/Kimi-K2.5/GLM-5/MiniMax 2.5 → SGLang 优先
→ 其他模型 → 检查 SGLang 支持列表

标签: vLLM SGLang RadixAttention PagedAttention production inference-engine


13. Red Hat + DeepLearning.AI vLLM 免费课程(2026-06-03)

来源: Red Hat Developer Blog
链接: https://developers.redhat.com/blog/2026/06/03/learn-optimize-deploy-and-benchmark-llms-vllm-new-free-course
可信度: ⭐⭐⭐⭐(Red Hat 官方 + DeepLearning.AI 合作)

课程内容(JupyterLab hands-on labs): 1. 优化:LLM Compressor 压缩模型(quantization/pruning) 2. 部署:vLLM 生产部署(DOCKER + Kubernetes) 3. Benchmark:GuideLLM 评测工具链

适合人群:
AI/ML 工程师、平台工程师、MLOps,从实验到生产的过渡者。

标签: vLLM Red-Hat DeepLearning.AI course free production


六、CSDN 高价值筛选(本轮)

说明: 本轮 CSDN 检索「PostgreSQL/MySQL 数据库性能优化 2026」主要结果为概述性文章,缺乏具体命令、环境、源码分析或实测数据。典型问题: - 仅有配置参数列表,无实际调优前后对比数字 - 慢查询案例缺少执行计划分析细节 - 原理讲解为主,无可复现步骤

结论: 本轮无新增 CSDN 高价值条目。昨日 2026-06-10-csdn-source-debug-deploy.md 已覆盖的优质 CSDN 内容(诊断命令、排障经验、源码分析)仍为本轮主要参考。

建议: 后续 CSDN 收录标准收紧——只收录含 EXPLAIN ANALYZE 输出、错误日志切片、性能 Profiling 数据、真实 benchmark 命令的条目。


七、分类标签

# Database
PostgreSQL-18  async-I/O  UUIDv7  btree-skip-scan  pgvector  pgvectorscale
ClickHouse  DuckDB  OLAP  ClickBench  vector-db

# Backend
Rust  inference-backend  ChromaDB

# Cloud-Native
Cilium  eBPF  Kubernetes  CNI  service-mesh  multi-cloud
NVMe-offload  KV-cache  GPU

# Inference Engineering
vLLM  SGLang  RadixAttention  PagedAttention
SlidingServe  Exclusive-Batching  SuperInfer
KV-cache  SLO-aware  inference-scheduling
GH200  NVLink-C2C  arXiv-2026
vLLM-course  Red-Hat

八、本次高价值发现(TOP 5)

优先级 发现 来源 工程价值
⭐⭐⭐⭐⭐ SlidingServe(arXiv:2606.05933) arXiv SLO调度新范式,+30%容量,violation降16-53%
⭐⭐⭐⭐⭐ vLLM vs SGLang 生产对比 TURION.AI 选型决策树,3-5x prefix reuse优势
⭐⭐⭐⭐⭐ Exclusive Batching(arXiv:2606.00516) arXiv vLLM重大改进,+19.5%吞吐(带宽受限时)
⭐⭐⭐⭐ KV Cache 优化工程指南 DigitalApplied 4-40x成本优化,场景化stack推荐
⭐⭐⭐⭐ PostgreSQL 18 官方+多博客 Async I/O 2-3x加速,UUIDv7,运营重大改进

九、建议写入路径

路径: /shared/research-kb/inbox/jay/2026-06-11-afternoon-database-backend-cloudnative-inference.md

本轮是否写入: ✅ 已写入

主题标签: database backend cloud-native inference-engineering PostgreSQL-18 vLLM SGLang Cilium

与现有草稿关系: - 与 2026-06-11-database-backend-cloudnative-inference.md(11:07)互补:本文聚焦 PostgreSQL 18、SlidingServe、Exclusive Batching、vLLM/SGLang 深度对比,未重复 - 与 2026-06-11-inference-benchmark-engineering.md(14:51)互补:本文的 SlidingServe + EB 是该草稿 Inference scheduling 部分的新增内容 - 与 2026-06-11-agent-security-llm-inference-engineering.md(14:51)不重叠


十、后续行动建议

优先级 类型 内容 说明
🔴 本周 精读 SlidingServe 论文(arXiv:2606.05933)全文 SLO调度新方向
🔴 本周 精读 Exclusive Batching 论文(arXiv:2606.00516) vLLM调度改进
🟡 本周 精读 vLLM vs SGLang TURION.AI 全文 生产选型必备
🟡 本周 核验 PostgreSQL 18 async I/O 在国内 PG 发行版(阿里云/腾讯云)支持情况 评估升级路径
🟢 后续 主题页 LLM 推理系统工程:整合 SlidingServe + EB + KV Cache Guide + SuperInfer 新增调度章节
🟢 后续 主题页 PostgreSQL 2026 全景:整合 PG 18 + pgvector + pgvectorscale + Citus 数据库选型参考

Jay · 2026-06-11 下午轮 · 知识库草稿