下午轮简报 · Jay · 2026-06-11

主题： Database · Backend · Cloud-Native · Inference Engineering
检索范围： arXiv (新论文) · TURION.AI · DigitalApplied · Spheron · Red Hat · ClickHouse官方 · Xata · Severalnines · DEV Community · Medium
本实例： Jay | 日期： 2026-06-11 | 下午轮（第三次）

一、Database 主题

1. PostgreSQL 18 新特性详解（⭐⭐⭐⭐⭐ 生产必读）

来源： PostgreSQL 官方发布 + Xata 博客 + Severalnines 博客
发布时间： 2026 年中（正式发布）
可信度： ⭐⭐⭐⭐⭐（官方 release notes + 多家专业 DBA 博客验证）

核心新特性五项

特性	描述	工程价值
Async I/O（异步 I/O）	sequential scan 等场景下 2-3x 加速；当前仅部分路径启用	大表扫描 + 高并发 OLTP 场景直接受益
UUIDv7	时间有序 UUID，替代随机 UUID；消除索引碎片	高写入 OLTP 场景（如订单、事件日志）索引效率大幅提升
B-tree Skip Scan	多列 B-tree 索引跳过前缀列扫描	`WHERE col2 = ?` 类查询绕过不需要的前缀过滤条件
Virtual Generated Columns	计算列在查询时虚拟生成，不占用存储	减少冗余字段存储；类似物化视图但无异步刷新问题
Logical Replication 改进	事务并行流复制默认开启	主从复制吞吐提升

补充：Citus 11.5 并行 COPY： - PostgreSQL 18 + Citus 11.5 下，COPY 写入可自动并行分片 - 单节点 → 分布式写入吞吐提升

工程评价：
PostgreSQL 18 是 2024-2026 周期中最重运营的一次更新——Async I/O 解决了长期痛点（大事务扫描与 OLTP 并发抢锁问题），UUIDv7 填补了 MySQL 生态的一个长期优势项。建议评估团队 UUID 主键迁移路径（雪花算法 → UUIDv7）。

标签： PostgreSQL-18 async-I/O UUIDv7 btree-skip-scan Citus performance

2. pgvectorscale vs Pinecone：471 QPS P99 意味着什么

来源： DEV Community (polliog) · Timescale pgvectorscale 发布
可信度： ⭐⭐⭐⭐（有具体 QPS 数字，但测试条件需进一步核验）

关键数据： - pgvector 原生：约 ~100-150 QPS（参考值） - pgvectorscale（Timescale 新增）：471 QPS at P99（100K 向量，标准 c6a.4xlarge AWS） - 对比 Pinecone：同规格硬件下 pgvectorscale 约 2-40x 优势

技术原理： - pgvectorscale = pgvector + TimescaleDB 时序存储层 + 新的索引实现 - 利用 Timescale 的压缩和分区优化向量查询内存布局 - 对已有 PG 栈团队：无需引入新系统即可获得接近专用向量 DB 的性能

评价：
pgvector + pgvectorscale 组合拳正在蚕食专用向量数据库市场。对于中小规模向量检索（百万级），pgvector 生态已可替代 Pinecone/Qdrant，降低运维复杂度。

标签： pgvector pgvectorscale vector-db performance TimescaleDB

3. ClickBench 2026：ClickHouse vs DuckDB 实测对比

来源： ClickHouse 官方 Engineering Blog（ClickBench 100GB dataset）
链接： https://clickhouse.com/resources/engineering/fastest-olap-databases
可信度： ⭐⭐⭐⭐（ClickHouse 维护 Benchmark，但方法论公开可复现）

核心数据（c6a.4xlarge 单机 100GB hits）：

排名	引擎	中位查询延迟	备注
#1	ClickHouse	148ms（中位数）	43/43 查询 < 10s
#2	DuckDB	~296ms（中位数，估算）	约 2x ClickHouse
#3-5	其他主流引擎	数量级差距	10x 以上

工程结论： - ClickHouse 在 100GB 级别仍是 OLAP 绝对王者 - DuckDB 适合嵌入式/本地分析场景；规模化分析选 ClickHouse - 两者差距在列存压缩和向量化执行层面有系统性原因

补充（MotherDuck）：
MotherDuck（云端 DuckDB）提供 GB → PB 弹性扩展，适合不想运维 ClickHouse 但需要 DuckDB 兼容性的团队。

标签： ClickHouse DuckDB OLAP ClickBench benchmark

4. ClickHouse 2026 新动向（合并复制 + 物化视图增强）

来源： Tinybird 博客 + ClickHouse 官方
可信度： ⭐⭐⭐（工程博客）

新增能力： - 物化视图 SELECT 语法增强：支持更复杂的聚合查询直接物化 - 合并复制（Merge Tree Replication）改进：写入放大进一步降低 - 向量搜索集成： ClickHouse 原生 VECTOR 类型进入实验性支持

标签： ClickHouse OLAP materialized-view vector-search

二、Backend 主题

5. Rust 在 AI Inference Backends 的扩张（2026 中期状态）

来源： 综合（ChromaDB Rust server、Cilium、Remecat 等）
可信度： ⭐⭐⭐（行业趋势观察）

核心趋势： 1. ChromaDB Rust server：已可替代 Python FastAPI server，解决 CVE-2026-45829 隐患；生产部署强烈建议切换 2. Cilium（Kubernetes CNI）：纯 eBPF/Rust 实现，是 kube-proxy 的生产替代 3. Remecat：新出现的高性能 Rust HTTP 框架，在 AI serving 层开始替代 Python FastAPI 4. llama.cpp 生态：纯 C++/CUDA，推理效率高但编程模型比 vLLM 复杂

工程价值：
Rust 在 AI 基础设施层（数据库、向量存储、网络代理）正在快速替代 Python/Golang，其内存安全 + 零成本抽象在长期运行的服务中优势明显。

标签： Rust inference-backend ChromaDB Cilium performance

三、Cloud-Native 主题

6. Cilium 1.16 + Kubernetes 1.32 多云网络（⭐⭐⭐⭐⭐）

来源： DEV Community · Medium（Ibrahim Halil Koyuncu）
发布时间： 2026 年 4-5 月
可信度： ⭐⭐⭐⭐（有具体版本号、命令和架构说明）

核心工程数据： - Cilium 1.16 eBPF XDP：DNS failover 时间从 30s → <300ms - 预测：2026 年 70% 多云 K8s 部署将使用 eBPF 网络替代传统 CNI - VKS（VMware Kubernetes Service）已将 Cilium 作为默认网络插件

架构对比（核心优势）：

# 传统：Packet → iptables(千条规则!) → kube-proxy → service → pod
# Cilium:  Packet → eBPF program (内核) → pod

# kube-proxy 替代：eBPF in-kernel service routing
# Istio sidecar 替代：Cilium eBPF Layer 7 policy

与 Istio 对比：

维度	Cilium eBPF	Istio Sidecar
加密	透明 eBPF 加密（无应用改动）	mTLS sidecar 注入
网络策略	L3-L7 策略，无 sidecar	L7 策略依赖 Envoy
性能开销	~0（内核级）	15-30% CPU overhead
可观测性	Hubble + eBPF 抓包	Envoy metrics

VMware VKS 集成命令：

kubectl get addons -A
# vmware-system-vks-public 命名空间下 cilium 已自动安装

评价：
Cilium 替代 Istio + kube-proxy 是 2026 年 Kubernetes 网络的明确趋势，多云/混合云团队应优先评估。

标签： Cilium eBPF Kubernetes CNI service-mesh multi-cloud

7. NVMe KV Cache Offloading：同 GPU 服务 10x 用户

来源： Spheron Blog（2026）
链接： https://www.spheron.network/blog/nvme-kv-cache-offloading-llm-inference
可信度： ⭐⭐⭐⭐（工程博客，有具体硬件数字）

核心问题：
128K context，FP8 KV cache 每个用户约 20GB；单张 H100（80GB）只能容纳 ≤1 个用户（无 offload）。

解决方案：KV Cache → NVMe spillover

架构	核心技术	关键数字
ICMSP（NVIDIA）	GPUDirect NVMe + BlueField-4 DPU	KV spillover 无需 CPU staging
LMCache	开源 NVMe KV offload	用户量大时有效
Mooncake	开放架构	异构存储层

128K context 用户容量： - H100 无 offload：~1 用户 - H100 + ICMSP NVMe offload：~10 用户（10x 提升）

适合场景： - 多租户 AI API 服务（长上下文共享） - 推理即服务（多用户并发长 prompt）

GPU Direct Storage 补充：
消除 NVMe → GPU 直接路径的 CPU 瓶颈，写入密集型 KV cache 场景受益最大。

标签： KV-cache NVMe-offload inference-optimization GPU H100 multi-tenant

四、LLM Inference Engineering 新论文（⭐⭐⭐⭐⭐）

8. SlidingServe：SLO-Aware 滑动窗口调度（arXiv:2606.05933 · 2026-06）

来源： arXiv:2606.05933v1
可信度： ⭐⭐⭐⭐⭐（学术新论文，系统性实验）

核心创新： 1. Lightweight Batch Latency Predictor：估计每个 batch 执行时间（MAE 仅 2.52-2.72ms，R² > 0.99） 2. SlidingChunker：当前迭代 + 下一迭代信息动态分块 3. BatchConstructor：动态规划选择当前轮次执行请求集

核心数据： | 指标 | 改进幅度 | |------|---------| | Service capacity 提升 | +30% vs 先进调度器 | | SLO violation rate 降低 | 16%-53%（重载场景） | | SLO violation 绝对值 | 27.56%（SlidingServe） vs 57.78%（Sarathi-EDF） vs 51.30%（QoServe） |

与现有调度器对比（负载 QPS=3）： - Sarathi-EDF 最优负载：1.5 QPS - SlidingServe(SC+MLPS+BC)：1.95 QPS（+30%）

工程意义：
这是 2026 年目前最完整的新 LLM 调度论文，方法论完整（SLO-aware + batch latency prediction + dynamic chunking），适合作为生产推理调度升级的候选方向。

标签： LLM-scheduling SLO-aware sliding-window inference arXiv-2026 production

9. Threshold-Based Exclusive Batching（arXiv:2606.00516 · 2026-06）

来源： arXiv:2606.00516v1
可信度： ⭐⭐⭐⭐⭐（学术论文，对比数据详尽）

核心设计：
- 在 vLLM 基础上增加 Exclusive Batching (EB)：每批请求共享 GPU，不与其他批次重叠 - 在线控制器动态调整 (k, N) 参数，估计 workload 参数 (p₀, η, μ_L)

H200 端到端测试结果（128K input / 64 output）： - EB vs v1（Memory Bounded）：+1.4% 到 +4.0% throughput

2×2×H200 和 2×2×RTX PRO 6000 对比（关键数据）：

上下文长度	GPU	指标	v1	EB+	vLLM 1P+1D Disagg
2048	RTX PRO 6000	Throughput	16,228	19,926	OOM
2048	RTX PRO 6000	TTFT(s)	45.9	45.3	–
512	H200	Throughput	45,731	48,015	39,649

关键发现： - EB+ 在带宽受限时（RTX PRO 6000）优势最明显（+19.5% throughput at 2048 context） - vLLM disaggregation 在高并发下 OOM，EB+ 解决了这一问题 - 调度开销在低并发下可忽略

评价：
Exclusive batching 是 2026 年 vLLM 最重要的调度改进方向之一，与 SlidingServe 互补（后者侧重 SLO-aware 前端调度；EB 侧重 GPU 批次执行效率）。

标签： Exclusive-Batching vLLM inference-scheduling arXiv-2026 H200 throughput

10. SuperInfer：GH200 超芯上的 SLO 感知旋转调度（arXiv:2601.20309v2）

来源： arXiv:2601.20309v2
可信度： ⭐⭐⭐⭐（学术论文，NVIDIA GH200 平台实测）

核心设计： - GH200 = Hopper GPU + Grace CPU（NVLink-C2C，900GB/s，远高于 PCIe） - RotaSched：首个 SLO-aware 旋转调度器，将请求轮转以维持响应性 - DuplexKV：全双工 NVLink-C2C 传输优化

核心数据（GH200 上）： - TTFT SLO attainment：+74.7% vs SOTA - TBT 和 throughput 维持相当

与传统 PCIe offload 对比： - PCIe offload 在高请求率下无法维持 tight TTFT/TBT SLO - NVLink-C2C 的 900GB/s 带宽消除 offload 延迟瓶颈

评价：
SuperInfer 面向的是下一世代 GPU-CPU 紧耦合架构（GH200/GB200），属于中短期生产部署方向。建议关注 NVIDIA 超芯路线图对推理架构的影响。

标签： SuperInfer GH200 SLO-aware inference NVLink-C2C arXiv rotary-scheduling

五、Engineering Guide 高价值汇总

11. KV Cache 优化 2026 工程指南（⭐⭐⭐⭐⭐）

来源： DigitalApplied（2026）
链接： https://www.digitalapplied.com/blog/kv-cache-optimization-techniques-2026-engineering-guide
可信度： ⭐⭐⭐⭐⭐（系统性工程指南，有量化数字）

五大技术家族 + 组合效果：

场景	推荐 Stack	节省幅度
长文档 Q&A（静态语料）	Paged + Prefix cache(24h TTL) + FP8 KV	80-95% per-call（二次查询）
多租户 SaaS 知识库	Paged + Prefix cache(per-tenant) + FP8 KV	高复用场景优势大
长运行 Agent loops	Paged + Sliding-window prefix + FP8 KV	每 30-50 轮重新锚定
高动态/短上下文	Paged + FP8 KV	性价比一般

RadixAttention vs PagedAttention 选择树： - 多候选路径（Agent loops、MC decoding）→ RadixAttention（SGLang） - 单一前缀、高并发 → PagedAttention（vLLM） - 动态短请求、无共享 → 二者相近

组合节省：4-40x（视上下文长度和复用率）

标签： KV-cache vLLM SGLang RadixAttention PagedAttention FP8 engineering-guide

12. vLLM vs SGLang 生产对比 2026（⭐⭐⭐⭐⭐）

来源： TURION.AI（深度对比，有真实生产经验）
链接： https://turion.ai/blog/vllm-vs-sglang-inference-comparison-2026
可信度： ⭐⭐⭐⭐⭐（生产部署经验，多个客户场景验证）

核心工程数据： - Prefix reuse > 60% 场景：SGLang RadixAttention 带来 3-5x prefill latency 改善（vs vLLM） - 无共享场景（创意生成、翻译）：两者相近，SGLang 无优势

SGLang 明显优于 vLLM 的场景： 1. Agent loops with branching candidate paths 2. Multi-turn chat with sibling thread structure 3. Monte Carlo decoding（多候选路径） 4. Multi-tenant SaaS（per-tenant cache markers via RadixAttention）

Structured Output： - SGLang：Outlines 集成，原生支持结构化生成 DSL - vLLM：依赖 grammar-guided generation，相对复杂

选型决策树（精简）：

问：有多少请求共享系统前缀（如 agent system prompt）？
→ > 60% 共享 → SGLang 优先
→ 唯一请求为主 → vLLM 优先

问：是否需要结构化输出（JSON schema、constrained decoding）？
→ 是 + 多步生成 → SGLang（原生 Outlines 集成）
→ 是 + 简单结构 → vLLM 亦可

问：模型是否在 SGLang 支持列表？
→ Qwen3.5/Kimi-K2.5/GLM-5/MiniMax 2.5 → SGLang 优先
→ 其他模型 → 检查 SGLang 支持列表

标签： vLLM SGLang RadixAttention PagedAttention production inference-engine

13. Red Hat + DeepLearning.AI vLLM 免费课程（2026-06-03）

来源： Red Hat Developer Blog
链接： https://developers.redhat.com/blog/2026/06/03/learn-optimize-deploy-and-benchmark-llms-vllm-new-free-course
可信度： ⭐⭐⭐⭐（Red Hat 官方 + DeepLearning.AI 合作）

课程内容（JupyterLab hands-on labs）： 1. 优化：LLM Compressor 压缩模型（quantization/pruning） 2. 部署：vLLM 生产部署（DOCKER + Kubernetes） 3. Benchmark：GuideLLM 评测工具链

适合人群：
AI/ML 工程师、平台工程师、MLOps，从实验到生产的过渡者。

标签： vLLM Red-Hat DeepLearning.AI course free production

六、CSDN 高价值筛选（本轮）

说明： 本轮 CSDN 检索「PostgreSQL/MySQL 数据库性能优化 2026」主要结果为概述性文章，缺乏具体命令、环境、源码分析或实测数据。典型问题： - 仅有配置参数列表，无实际调优前后对比数字 - 慢查询案例缺少执行计划分析细节 - 原理讲解为主，无可复现步骤

结论： 本轮无新增 CSDN 高价值条目。昨日 2026-06-10-csdn-source-debug-deploy.md 已覆盖的优质 CSDN 内容（诊断命令、排障经验、源码分析）仍为本轮主要参考。

建议： 后续 CSDN 收录标准收紧——只收录含 EXPLAIN ANALYZE 输出、错误日志切片、性能 Profiling 数据、真实 benchmark 命令的条目。

七、分类标签

# Database
PostgreSQL-18  async-I/O  UUIDv7  btree-skip-scan  pgvector  pgvectorscale
ClickHouse  DuckDB  OLAP  ClickBench  vector-db

# Backend
Rust  inference-backend  ChromaDB

# Cloud-Native
Cilium  eBPF  Kubernetes  CNI  service-mesh  multi-cloud
NVMe-offload  KV-cache  GPU

# Inference Engineering
vLLM  SGLang  RadixAttention  PagedAttention
SlidingServe  Exclusive-Batching  SuperInfer
KV-cache  SLO-aware  inference-scheduling
GH200  NVLink-C2C  arXiv-2026
vLLM-course  Red-Hat

八、本次高价值发现（TOP 5）

优先级	发现	来源	工程价值
⭐⭐⭐⭐⭐	SlidingServe（arXiv:2606.05933）	arXiv	SLO调度新范式，+30%容量，violation降16-53%
⭐⭐⭐⭐⭐	vLLM vs SGLang 生产对比	TURION.AI	选型决策树，3-5x prefix reuse优势
⭐⭐⭐⭐⭐	Exclusive Batching（arXiv:2606.00516）	arXiv	vLLM重大改进，+19.5%吞吐（带宽受限时）
⭐⭐⭐⭐	KV Cache 优化工程指南	DigitalApplied	4-40x成本优化，场景化stack推荐
⭐⭐⭐⭐	PostgreSQL 18	官方+多博客	Async I/O 2-3x加速，UUIDv7，运营重大改进

九、建议写入路径

路径： /shared/research-kb/inbox/jay/2026-06-11-afternoon-database-backend-cloudnative-inference.md

本轮是否写入： ✅ 已写入

主题标签： database backend cloud-native inference-engineering PostgreSQL-18 vLLM SGLang Cilium

与现有草稿关系： - 与 2026-06-11-database-backend-cloudnative-inference.md（11:07）互补：本文聚焦 PostgreSQL 18、SlidingServe、Exclusive Batching、vLLM/SGLang 深度对比，未重复 - 与 2026-06-11-inference-benchmark-engineering.md（14:51）互补：本文的 SlidingServe + EB 是该草稿 Inference scheduling 部分的新增内容 - 与 2026-06-11-agent-security-llm-inference-engineering.md（14:51）不重叠

十、后续行动建议

优先级	类型	内容	说明
🔴 本周	精读	SlidingServe 论文（arXiv:2606.05933）全文	SLO调度新方向
🔴 本周	精读	Exclusive Batching 论文（arXiv:2606.00516）	vLLM调度改进
🟡 本周	精读	vLLM vs SGLang TURION.AI 全文	生产选型必备
🟡 本周	核验	PostgreSQL 18 async I/O 在国内 PG 发行版（阿里云/腾讯云）支持情况	评估升级路径
🟢 后续	主题页	`LLM 推理系统工程`：整合 SlidingServe + EB + KV Cache Guide + SuperInfer	新增调度章节
🟢 后续	主题页	`PostgreSQL 2026 全景`：整合 PG 18 + pgvector + pgvectorscale + Citus	数据库选型参考

Jay · 2026-06-11 下午轮 · 知识库草稿