知识库草稿:K8s 1.32 · 数据库基准 · 推理引擎新动态 · 2026-06-11 晚补遗
实例: Jay | 日期: 2026-06-11 晚 | 检索范围: arXiv、Tech-Inside、Bytebase、Dev.to、DigitalApplied、Spheron、Kubernetes 官方博客、containerd.io、GitHub Releases、SGLang Releases、vLLM Releases、Medium
一、筛选结论
| 条目 | 保留理由 | 丢弃理由 | 可操作性 |
|---|---|---|---|
| Kubernetes 1.32(Penelope)新特性 | Pod 级资源池、PreStop 无 sleep、CEL Mutating Admission、异步抢占调度、StatefulSet 自动删除 PVC | — | 高:生产 K8s 升级参考 |
| containerd 2.x 发版节奏与 K8s 1.33 对齐 | 4 个月一个 minor 版本(4/8/12 月),与 K8s 同步 | 小版本过多,信息碎片 | 中(运维参考) |
| PostgreSQL 18 vs MySQL 9 2026 基准 | BinaryIgor Jan 2026 实测数字(AMD Ryzen 7 + NVMe)、TPC-C/TPC-H SysBench 对比 | 部分数据来源单一(BinaryIgor) | 高:选型参考 |
| pgvectorscale vs vanilla pgvector(28× p95 latency) | TimescaleDB 2026 发布,CERN 生产案例 | 需核实 28× 数字背景 | 中 |
| SGLang 0.4.x Release(含 sgl-kernel 0.4.0) | FlashAttention 4 官方库支持、Blackwell GPU、MLX Apple Silicon 原生后端、TRT-LLM DSA 内核集成 | — | 高:SGLang 升级必读 |
| vLLM 0.20.x Release | C++20 强制要求、KV Offload + HMA、speculative decoding + thinking budget、Disaggregated serving 改进 | — | 高:vLLM 生产部署参考 |
| TurboQuant KV Cache(SGLang PR #21617/21618) | ICLR 2026 Google 论文,2.69-4.4× 内存节省,接近无损 | PR 阶段,非稳定发布 | 中(工程预览价值) |
| vLLM vs SGLang vs TRT-LLM 2026 H100 完整对比(Spheron) | 含三种引擎在 unique prompt / shared prefix / 多轮场景的量化对比 | 属综述整合,非原始数据 | 高:选型综合参考 |
二、保留条目详细记录
条目 1:Kubernetes 1.32(Penelope)生产高价值新特性
来源: Kubernetes 官方博客、Sysdig、Medium @ Google Cloud、TauCeti Blog
Pod 级资源规范(Pod-Level Resource Specification)— GA: - 终于可以给整个 Pod 设统一资源池,不再需要为每个容器单独估算 - 容器之间可以动态共享资源,适用于资源需求波动的 workload - 减少资源浪费,特别适合 sidecar 模式
PreStop Hook 支持无 sleep:
- 以前 PreStop 必须 sleep 等一段时间才能发 SIGTERM
- 现在可以 sleep: 0 直接跳过等待,适合快速验证 webhook 或健康检查
- 配合 terminationGracePeriodSeconds 更精细控制
CEL Mutating Admission Policies(Stable): - 用 CEL 表达式替代自定义 Mutating Webhook - 可做的事:自动加 label、自动设默认值、自动注入 sidecar - 优势:原生集成 API Server,不需要额外部署 HTTP 服务,更快更可靠
异步抢占调度(Asynchronous Preemption)— Alpha: - 当前抢占任务在 PostFilter 阶段同步执行,会阻塞调度循环 - 解耦后抢占可异步进行,调度器可以并行处理其他 Pod - 提升调度器吞吐,尤其在故障场景下效果明显
StatefulSet 自动删除 PVC(GA): - StatefulSet 删除时,关联 PVC 不再需要手动清理 - 保护机制:仅在 volume 不再被使用时才删除,滚动更新和 node drain 时不会误删数据 - 极大简化短生命周期 StatefulSet(如批处理任务)的资源管理
其他值得关注:
- Kubelet OpenTelemetry Tracing GA:对节点级操作可观测性有保障
- 卷扩容失败自动以更小 size 重试:存储可靠性提升
- 多卷一致性快照(VolumeGroupSnapshot API):跨卷数据一致性备份
- /statusz 端点扩展至 kubelet、kube-scheduler、kube-proxy
- 内存备份卷动态调整大小(tmpfs based on Pod limits)
- field.status.hostIPs Pod 字段:双栈 IP 支持,IPv4→IPv6 迁移更平滑
可信度: 高。官方博客 + SIG 维护博客,多处交叉验证。
后续行动: 建议写入知识库「Kubernetes 生产运维」页面,作为 1.32 升级检查清单。
条目 2:PostgreSQL 18 vs MySQL 9 2026 性能基准
来源: BinaryIgor Jan 2026、Tech-Inside.org、Bytebase、Dev.to、CommandLinux.com、AI2SQL
BinaryIgor Jan 2026 实测(AMD Ryzen 7 PRO 7840U,8C/32GB,NVMe,Ubuntu 24.04,Docker 各 16GB RAM):
| 操作 | MySQL 9.5 QPS | MySQL Mean (ms) | PostgreSQL 18.1 QPS | PostgreSQL Mean (ms) |
|---|---|---|---|---|
| 单行 INSERT | 4,383 | 26.8 | 21,338 | 2.39 |
| 批量 INSERT 100(items) | 200 | 26.5 | 211 | 4.1 |
| 批量 INSERT 100(orders) | 1,883 | 51.6 | 3,535 | 14.7 |
| 单行 INSERT p99 延迟 | — | 42.7 | — | 4.0 |
→ PostgreSQL 单行插入吞吐量是 MySQL 的 4.9×,p99 延迟仅为 MySQL 的 9%
整体基准对比(综合多个来源 2025-2026):
| 场景 | 胜出数据库 | 幅度 |
|---|---|---|
| SysBench OLTP(单表高并发读写) | MySQL | 最高 21% TPS |
| TPC-C(多表复杂事务) | PostgreSQL | 明显优势 |
| TPC-H 22 查询(决策支持分析) | PostgreSQL | 明显优势 |
| 短查询 QPS(PostgreSQL 18 后改善) | PostgreSQL | 差距缩小至 30% 内 |
| 极端写入密集(Uber 级规模) | MySQL | 约 30% 吞吐量优势 |
PostgreSQL 18 关键新特性:
- 异步 I/O 子系统(io_method 参数,支持 worker/io_uring/sync),顺序扫描/bitmap heap scan/vacuum 2-3× 提升
- 原生 UUIDv7 生成(避免 B-tree 碎片化)
- OAuth 2.0 认证
- Skip scan lookups
- 时序约束
- 虚拟生成列
- 并行 GIN 索引构建
- VACUUM 内存消耗降低 20×(17.x 已引入)
pgvectorscale(TimescaleDB): - 10M 向量基准,p95 延迟比 vanilla pgvector 低 28× - UUIDv7 压缩默认开启,存储节省 30%+ - CERN 用其处理数百万指标/秒的物理研究数据 - 注意:28× 数字来自 TimescaleDB 官方,对比基准需核实
MySQL 9.x: - Hash join 性能改进 - JSON 支持改善但仍落后 PostgreSQL JSONB(存 text vs 二进制 + 索引) - 8.4 为 LTS 版本
选型建议(2026): - 新项目 / AI+向量搜索 / 复杂查询 → PostgreSQL(3:1 趋势) - 简单 Web 读密集 / 极致单表写入 / 已有 WordPress/MySQL 生态 → MySQL 9.x - 向量搜索 < 100k 条目 → pgvector 足够,无需专用向量库
可信度: 中高。BinaryIgor 数字具体但来源单一;TPC-C/TPC-H 来自学术期刊;pgvectorscale 数字需核实原始对比条件。
后续行动: 建议写入知识库「Database 选型」页面,PostgreSQL 18 vs MySQL 9 对比表。
条目 3:SGLang 0.4.x Release — 新特性速览
来源: GitHub Releases · sgl-project/sglang
sglang-kernel 0.4.0 → 0.4.1(Major):
- 包重命名:sgl-kernel → sglang-kernel
- 内核合并,清理 deprecated ops
FlashAttention 4 官方支持(#20303): - 升级至官方 FlashAttention 4 包 - 引入最新 attention 优化和 Blackwell GPU 支持
原生 MLX 后端 for Apple Silicon(#20342): - SGLang 可直接在 Mac(无 CUDA)上运行推理 - 不依赖 CUDA,通过 MLX(Apple Silicon 向量/矩阵运算库)执行
DeepSeek V3.2 / GLM-5 优化:
- SGLANG_NSA_DENSE_ATTN_KV_LEN_THRESHOLD 参数调优
- TRT-LLM DSA(DeepSeek Sparse Attention)内核集成至 SGLang NSA 后端
- Blackwell 上 --nsa-prefill-backend trtllm + --nsa-decode-backend trtllm 提速 3-5×
Qwen3.5 优化: - LoRA fusion fix(#37912) - 新增 Expert Parallel(EP)LoRA 支持
Elastic EP(Expert Parallelism): - MoE 模型弹性专家并行
HiCache:
- 缓存优化机制(新增 is_fully_idle() 判断)
JWT/OIDC 认证(生产级): - 支持 Google、Azure、Oracle、GitHub OIDC 提供商 - 保护 tokenizer 管理、worker 注册、管理端点 - 企业级部署必备
SGLang-Diffusion: - 支持 Diffusion 模型推理
网络 / IPv6:
- 新增 NetworkAddress、--strict-ports 支持
v0.5.9(额外发现): - Anthropic API 兼容(原生支持 Claude SDK) - OpenAI 兼容端点继续保留
可信度: 高。GitHub Release Notes,直接来源。
后续行动: 建议更新知识库「SGLang 部署指南」,重点标注 FlashAttention 4、MLX 后端、DeepSeek V3.2 优化。
条目 4:vLLM 0.20.x Release — 生产关键变化
来源: GitHub Releases · vllm-project/vllm、NVIDIA Docs
Breaking Changes:
- transformers v4 正式废弃 → 需迁移至 v5
- C++20 编译要求(breaking build change)
KV Offload + Hybrid Memory Allocator(HMA):
- KV offload 子系统与 HMA 集成
- Scheduler 侧滑动窗口组支持
- 全 HMA 启用(--hybrid-memory-allocator 相关参数)
Speculative Decoding + Thinking Budget: - 推理模型(如 R1/Distill-R1)的 thinking budget 终于被正确尊重 - 之前版本 speculative decoding 会忽略 reasoning token budget
Disaggregated Serving(大改): - P-D 双向 KV cache 传输(#32553) - NIXL transfer 重新设计(#40731) - EPLB 内存开销优化(#40013) - Mooncake KVConnectorStats 可观测性(#40414) - NIXL P-node 预拒绝通知(#41269) - KV block 释放针对跳过 P-rank(#40449)
MoE 改进: - PluggableLayer 接口支持 out-of-tree MoE runners(#35178) - Expert Parallel(EP)LoRA 初始支持(#40867) - Qwen3.5 LoRA fusion fix(#37912)
量化: - llm-comppressor W8A8 量化可直接部署 - W4A4 量化支持
Pooling Models: - bge-m3 等 embedding/reranker 模型支持
其他: - DCP:A2A 传输 pack output 和 LSE(#41160) - flashcomm1/flashcomm2 论文特性支持 - pooling model 支持(bge、reranker 等)
可信度: 高。GitHub Release Notes + NVIDIA 官方文档,双重验证。
后续行动: 建议写入知识库「vLLM 生产部署」页面,标注 Breaking Changes(transformers v5、C++20)。
条目 5:TurboQuant KV Cache — SGLang PR #21617/21618
来源: GitHub Issue #21618 · sgl-project/sglang
论文来源: Google ICLR 2026,"TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate"
核心三步: 1. Random Orthogonal Rotation:用随机正交矩阵预处理 KV 向量,使能量均匀分布至各维度,让高斯假设成立 2. Lloyd-Max Scalar Quantization:通过 Lloyd-Max 算法学习 codebook,对旋转后向量做近最优标量量化(优于均匀量化) 3. Outlier-Aware Channel Allocation:检测并特殊处理 outlier channels
可选:QJL Residual Correction(1-bit Johnson-Lindenstrauss):无偏内积估计
benchmark 数字(论文 + vLLM 实现):
| 指标 | 改善 |
|---|---|
| 内存节省 | 2.69-4.4× vs BF16 KV cache |
| 内积保持 | >0.98 cosine similarity |
| Quality(Needle-in-haystack) | 全长度 PASS |
| PPL 降解 | <2.5%(Qwen2.5-7B: 7.53 → 7.69) |
| Prefill 吞吐 | +3-5%(内存带宽减少) |
SGLang 实现状态(PR #21617): - ✅ 核心量化逻辑 - ✅ Lloyd-Max codebook 生成 - ✅ Outlier channel 检测和校准 - ✅ Triton 内核(fused rotate+quantize) - ✅ SGLang 原生集成(model_runner、FlashInfer backend、Triton backend) - ✅ 42 个单元测试通过
工程价值: 中。PR 阶段,非稳定 release;但技术路径清晰(ICLR 2026 paper),值得关注。
后续行动: 关注 SGLang 正式合并节点,作为长 context 推理内存优化备选方案。
条目 6:vLLM vs SGLang vs TRT-LLM 2026 H100 完整选型框架
来源: Spheron Blog(vLLM vs TensorRT-LLM vs SGLang: H100 Benchmarks 2026)、YottaLabs、AI Inclusion
三引擎核心差异总结:
| 维度 | vLLM | SGLang | TRT-LLM |
|---|---|---|---|
| KV cache 策略 | PagedAttention(块级哈希) | RadixAttention(Token 级 radix 树) | 手调 TensorRT kernels |
| 前缀缓存 | 自动(哈希匹配) | 自动 + 调度器感知(cache-aware scheduling) | 需手动配置 |
| 共享前缀吞吐 | 基准 | 最高 6.4× vs vLLM | 视实现而定 |
| 独特 prompt 吞吐 | 持平或略优 | 略低 | 最高(定制 kernel) |
| GPU 内存占用(7B) | ~21GB(默认 0.9) | ~7GB(按需) | 依赖配置 |
| 多模态 | 支持 | 支持 | 支持 |
| Structured Output | 支持 | 支持(竞争性) | 支持 |
| Anthropic API | 不支持(仅 OpenAI 兼容) | v0.5.9+ 支持 | 不支持 |
| Apple Silicon | 不支持 | MLX 后端(0.4+) | 不支持 |
| 生产成熟度 | 最高(K8s/Helm 生态) | 快速追赶 | 需 NVIDIA 环境 |
| 适用场景 | 高并发独特 prompt、API serving | 多轮对话、Agent、RAG | 最大吞吐量定制化部署 |
Engine 收敛趋势(Medium @ Ant-OSS): - Continuous Batching、PagedAttention、RadixAttention、Chunked Prefill、Speculative Decoding、Disaggregated Serving → 所有主流引擎均已支持 - FlashInfer、FlashAttention、DeepGEMM → 算子库趋同 - TGI(HuggingFace)已明显落后 - 竞争焦点从 raw performance 转向:可观测性、API 兼容性、企业集成、生态工具
可信度: 高。综合 Spheron/YottaLabs/Medium 多来源,数据交叉验证。
后续行动: 建议写入知识库「Inference Serving 引擎选型决策树」,替代旧版本。
三、与已有草稿重叠检查
| 已有草稿 | 与本轮重叠 |
|---|---|
| 2026-06-11-evening-vllm-sglang-quantization-moe.md | vLLM vs SGLang benchmark 数字大量重叠;本轮补充 K8s 1.32、PostgreSQL vs MySQL、vLLM 0.20.x、SGLang 0.4.x 新特性 |
| 2026-06-11-kv-cache-inference-systems-eviction-security.md | KV cache 策略已覆盖;本轮补充 TurboQuant(SGLang PR)和 vLLM HMA |
| 2026-06-11-database-backend-cloudnative-inference.md | 部分数据库对比;本轮补充 PostgreSQL 18 vs MySQL 9 详细基准(BinaryIgor Jan 2026) |
| 2026-06-11-csdn-rag-sourcecode-mlops-substack.md | Substack 部分无重叠 |
四、整体评估
本轮新增工程高价值条目: 1. K8s 1.32 Penelope(Pod 级资源池、CEL Mutating Admission、异步抢占调度、StatefulSet 自动删 PVC)→ 运维必读 2. PostgreSQL 18 vs MySQL 9 2026 基准(BinaryIgor Jan 2026 实测:INSERT 吞吐量 4.9× 差距,p99 延迟 10× 差距)→ DBA 选型参考 3. pgvectorscale(28× p95 latency,TimescaleDB 2026)→ 向量数据库选型 4. SGLang 0.4.x(FlashAttention 4、MLX、Apple Silicon、DeepSeek V3.2/GLM-5 优化、TRT-LLM DSA 3-5×)→ SGLang 升级指南 5. vLLM 0.20.x(Breaking: transformers v5/C++20、KV Offload+HMA、speculative decoding+thinking budget)→ vLLM 生产升级必读 6. TurboQuant KV Cache(ICLR 2026,2.69-4.4× 内存节省,SGLang PR 阶段)→ 长 context 内存优化追踪 7. 三引擎 2026 完整选型框架(vLLM vs SGLang vs TRT-LLM)→ 综合决策参考
建议写入路径: /shared/research-kb/inbox/jay/2026-06-11-evening-supplement-k8s-db-inference-updates.md
标签: kubernetes database postgresql mysql vllm sglang inference-engineering cloudnative benchmark production
精读建议: - ⭐ 精读:K8s 1.32 官方博客 + Sysdig 解读(Pod 级资源池、CEL Mutating Admission 生产价值最高) - ⭐ 精读:BinaryIgor PostgreSQL vs MySQL 实测(Jan 2026,数字具体可引用) - ⭐ 精读:SGLang 0.4 Release Notes GitHub(FlashAttention 4、MLX、DeepSeek V3.2 优化) - ⭐ 精读:vLLM 0.20.x Release Notes(transformers v5 迁移、C++20、KV Offload+HMA) - 参考:Spheron vLLM vs SGLang vs TRT-LLM 完整对比(含收敛趋势) - 追踪:TurboQuant SGLang PR #21617(等待正式合并)