知识库草稿：Database · Backend · Cloud-Native · Inference Engineering · 2026-06-11

实例： Jay | 日期： 2026-06-11 | 检索范围： arXiv、官方技术博客、Tavily、Substack（AI Engineer / ByteByteGo）

一、Database 主题（Vector DB 工程选型 & pgvector 深度）

1. pgvector 2026 三大家族对比（DBA 实操视角）

来源： dbi-services.com · 更新至 2026 年 3 月
链接： https://www.dbi-services.com/blog/pgvector-a-guide-for-dba-part-2-indexes-update-march-2026
可信度： 高（DBA 专业博客，含实测命令和参数解释）
核心发现：
HNSW：vector 类型上限 2,000 维；超过需用 halfvec workaround
IVFFlat：量化聚类索引，适合写入频繁、查询量中等的场景
DiskANN：支持最高 16,000 维原生 vector，compressed representation 存储，HNSW 的高维替代
三大家族选择逻辑：
- 维度 ≤2,000 + 高精度 → HNSW
- 写入频繁 + 可接受精度损失 → IVFFlat
- 维度 2,000~16,000 → DiskANN
pgvector 0.5.1 已支持 HNSW 并行构建（Andrew Kane 主导），构建速度提升 30 倍（Neon 博客数据）
工程细节：
CREATE INDEX ... USING hnsw (embedding vector_cosine_ops) WITH (m=16, ef_construction=64)
ef_search 参数控制查询精度/延迟权衡
Neon 云端可弹性分配额外资源专门跑 HNSW build，完成后缩回
评价： pgvector 已是 PostgreSQL 生态内的事实标准向量库；DiskANN 是 2026 年新增亮点，值得重点关注
标签： pgvector HNSW DiskANN IVFFlat vector-index postgresql

2. Neon pgvector 30x 索引构建加速

来源： Neon 官方博客
链接： https://neon.com/blog/pgvector-30x-faster-index-build-for-your-vector-embeddings
可信度： 高（云厂商官方，含架构说明）
核心观点： Neon 分离存储与计算架构，可在索引构建时弹性扩展 compute resource
评价： 生产级大规模向量入库必读；值得评估国内云厂商是否有类似弹性

3. Vector DB 全景选型（2026 Q2）

来源： alphacorp.ai · 2026
链接： https://alphacorp.ai/blog/best-vector-databases-for-rag-2026-top-7-picks
核心结论：
Qdrant：高密度向量 + 开源自部署，成本效率最优
Pinecone：托管服务，零运维但成本较高
Milvus：超大规模（>10 亿向量）首选
Weaviate：向量 + 关键词混合搜索（全文能力最强）
pgvector：已有 PG 栈团队首选，无需引入新系统
补充（CoreWeave 博客）： 向量库应紧邻 GPU 推理节点部署（Kubernetes 上），获得最低检索延迟
标签： vector-db Qdrant Pinecone Milvus Weaviate RAG

二、Backend 主题（分布式 DB & PostgreSQL 扩展生态）

4. PostgreSQL 水平扩展三路线（2026）

来源： Tinybird 官方博客
链接： https://www.tinybird.co/blog/postgresql-horizontal-scaling
可信度： 高（数据 API 平台，有具体命令和架构图）
三条路线对比： 1. Read Replicas：流复制 + PgBouncer transaction mode 分担读负载；适合读多写少场景 2. Citus Sharding：分布式扩展，保留 SQL 语义；适合需要水平写扩展的场景 3. Analytical Offload：CDC → ClickHouse（Debezium / Estuary Flow / Sequin）；OLTP/AP 分离
选择判断树：
瓶颈 = 读吞吐量 → Read Replicas
瓶颈 = 写吞吐量 → Citus Sharding
瓶颈 = 分析扫描量 → Analytical Offload
评价： 三条路线互不排斥，可叠加；Tinybird 作为具体工具实现值得关注
标签： postgresql scaling read-replicas citus clickhouse CDC

5. PostgreSQL vs MySQL vs ClickHouse 迁移实测

来源： Stackademic 博客
链接： https://blog.stackademic.com/postgresql-vs-mysql-vs-clickhouse-in-2026-i-migrated-the-same-high-traffic-service-to-all-three-e72831f7d64c
可信度： 中（有 P99 latency 数据，但背景信息有限）
实测结果（满调优后）：
ClickHouse P99：19ms（分析场景绝对胜出）
CPU 峰值：68%（列存压缩优势）
内存：19GB working set
评价： ClickHouse 在分析型负载（长查询、聚合）有数量级优势，但不适合 OLTP；MySQL vs PG 2026 年最新对比有参考价值
标签： postgresql mysql clickhouse benchmark OLAP

6. PostgreSQL vs MySQL 2026 深度对比

来源： tech-insider.org（综合 5 个 benchmark）
链接： https://tech-insider.org/postgresql-vs-mysql-2026
可信度： 中高（引用多个 benchmark，数据较全）
核心结论：
PostgreSQL 在 2025 年 Stack Overflow 开发者调查中超越 MySQL 成为最常用数据库
PostgreSQL 优势：MVCC 并发、JSONB、Array 类型、全文搜索、扩展生态（pgvector 等）
MySQL 优势：写入密集型 OLTP、复制延迟低、云厂商支持成熟
JSONB GIN 索引：CREATE INDEX idx_events_data ON events USING gin(data) 含完整语法示例
标签： postgresql mysql benchmark MVCC JSONB

7. 分布式 SQL DB 选型 2026

来源： PingCAP TiDB 官网对比页
链接： https://www.pingcap.com/compare/best-distributed-sql-databases
可信度： 中（供应商页面，观点有偏向，但覆盖较全）
分布式 SQL 三强（2026）：
TiDB：HTAP + MySQL 兼容，自动分片，OLTP + 实时分析
CockroachDB：强一致性，全球部署，PostgreSQL 兼容
YugabyteDB：PostgreSQL / Cassandra 双兼容，分布式事务延迟高于单节点 PG
注意： YugabyteDB 明确指出：使用主键单分片查询时性能接近单节点 PG；分布式事务才是延迟主因
标签： distributed-sql tidb cockroachdb yugabyte scaling

三、Cloud-Native 主题（eBPF · Cilium · Service Mesh 2026）

8. eBPF 2026 预测 & Cilium 新动向（Isovalent）

来源： Isovalent 官方博客（Cilium 核心贡献者）
链接： https://isovalent.com/blog/post/networking-and-ebpf-predictions-for-2026
可信度： 高（Cilium 官方，Liz Rice 等核心维护者）
2026 关键预测：
多云网络开始真实落地：基于 eBPF 的跨集群服务发现和策略统一成为可能
身份即人类语言，策略需跟上：Workload identity 从 IP/端口转向更细粒度语义
VM on Kubernetes 失去 innocence：VM 与容器网络边界模糊，eBPF 策略需覆盖混合负载
开源使用受到审查：企业合规要求倒逼开源供应链安全
工程价值： eBPF 已从实验技术进入生产网络基础设施阶段；Cilium+BGP 成为跨集群标准
标签： eBPF Cilium kubernetes networking multicloud

9. eBPF vs Sidecar Service Mesh：架构抉择框架

来源： Rack2Cloud 技术博客
链接： https://www.rack2cloud.com/service-mesh-vs-ebpf-kubernetes-cilium-vs-calico
可信度： 中高（有架构对比图和决策框架）
核心洞察：
传统 Kubernetes 网络分两层：CNI（pod 间连通性）+ Service Mesh（应用层特性：mTLS、流量路由、可观测性）
eBPF（ Cilium）已可将两层能力统一，减少 sidecar 代理开销
决策四维度：身份、加密、可观测性、流量控制
触发使用 Service Mesh 的条件：需要细粒度应用层路由（金丝雀、A/B）、零信任 mTLS、非 HTTP 协议支持
评价： 平台工程师选型必读；Cilium 替代 Istio 是 2026 年明确趋势
标签： cilium istio service-mesh ebpf kubernetes sidecar

10. eBPF + Service Mesh 可观测性融合

来源： Groundcover 博客
链接： https://www.groundcover.com/blog/ebpf-and-service-mesh
可信度： 中（工程博客，eBPF 可观测性实操）
核心观点：
eBPF 在内核层收集指标，避免应用层 sidecar 带来的 CPU/内存开销
典型路径：eBPF 抓包 → 指标生成 → OpenTelemetry 导出 → 可视化
与 Jaeger/ClickHouse 结合（见 New Stack 另一篇）：Jaeger 在 10M span 上实现 8.6x 压缩
标签： eBPF observability opentelemetry jaeger clickhouse

四、LLM Inference Engineering 专题（arXiv 新论文）

11. KV Cache 优化全景综述（arXiv 2026）

来源： arXiv:2603.20397v1
链接： https://arxiv.org/html/2603.20397v1
可信度： 高（学术 peer-reviewed，24 页综述）
五大优化方向： 1. Cache Eviction：动态驱逐低价值 KV 条目（Heuristic-based 或 Learning-based） 2. Cache Compression：量化/稀疏化 KV 表示 3. Hybrid Memory：HBM+DRAM 分层（TTKV 方案） 4. Novel Attention：FlashAttention 等新机制降低缓存需求 5. Combination：多策略联合
核心数据：
内存占用随 context length 线性增长（1M token 上下文 = 巨大瓶颈）
现有方法在内存/精度/吞吐量之间的权衡矩阵
评价： 系统性梳理 KV cache 问题的必读综述；适合作为推理优化技术选型的基础
标签： kv-cache inference-optimization llm arXiv survey

12. KVP：RL 驱动 KV Cache 驱逐策略

来源： arXiv:2602.10238v1
链接： https://arxiv.org/html/2602.10238v1
可信度： 高（学术论文，创新性强）
核心观点：
现有方法（按最近性/注意力分数）均为间接代理，无法预测 token 未来价值
提出 KV Policy (KVP)：轻量级 per-head RL agent，在预计算生成轨迹上训练
不修改底层 LLM，不增加推理开销
创新点： 将 KV cache eviction 重新定义为 ranking 问题（而非分类问题）
评价： Learning to Evict 方向值得关注；工程落地需要训练 pipeline 配合
标签： kv-cache reinforcement-learning inference llm

13. TTKV：Temporal-Tiered KV Cache（HBM+DRAM 分层）

来源： arXiv:2604.19769v1
链接： https://arxiv.org/html/2604.19769v1
可信度： 高（学术论文，有具体数值）
核心设计：
模拟人类记忆系统：短期记忆（HBM，高精度）vs 长期记忆（DRAM，低精度）
三个维度：Tier Layout（存储分层）/ Tier Content（按时间 proximity 分配）/ Tier Interaction（block-wise streaming attention 隐藏慢层延迟）
性能数据：
128K context 任务：跨层流量减少 5.94x
延迟降低 76%，吞吐量提升 2x
评价： HBM+DRAM 分层方案在长上下文推理场景有明确工程价值；值得关注国内是否有类似硬件配置的生产实现
标签： kv-cache long-context memory-hierarchy llm arXiv

14. LLM 推理在线调度：hindsight optimal benchmark

来源： arXiv:2502.07115v5
链接： https://arxiv.org/html/2502.07115v5
可信度： 高（理论扎实，有数学证明）
核心贡献：
将 LLM 推理调度建模为在线优化问题
提出 hindsight optimal benchmark（整数规划形式）
证明：任意确定型在线算法在任意到达过程下无法达到常数竞争比
提出多项式时间在线调度算法，在特定条件下可达到常数竞争比
工程意义： 为实际调度系统提供了理论下界，帮助工程师理解调度器的固有难度
标签： llm-scheduling online-algorithm inference theory

15. WAIT / Nested WAIT：KV Cache 约束下的调度算法

来源： arXiv:2504.11320v3
链接： https://arxiv.org/html/2504.11320v3
可信度： 高（理论 + 实验验证）
核心设计：
Fluid model 表征 equilibrium batch composition、内存需求、稳定区域
WAIT：已知输出长度下的阈值准入规则
Nested WAIT：未知输出长度下跨 decode-stage 的请求推进规则
标签： inference-scheduling kv-cache algorithm llm

五、LLM Inference Engines 2026 对比速查

16. vLLM vs SGLang vs TensorRT-LLM vs TGI（H100 实测 2026）

来源： Spheron Network 博客（H100 Benchmark）
链接： https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
可信度： 中高（有具体 benchmark 数据）
关键数据（2026 最新）：
vLLM PagedAttention 仍是内存效率标杆
SGLang RadixAttention 在多轮对话共享前缀场景有明显优势
TensorRT-LLM Blackwell + NSA（DeepSeek Sparse Attention）：--nsa-prefill-backend trtllm 带来 3x-5x 加速
Modular MAX（Mojo）：图编译内核在高并发场景对 vLLM 形成竞争
vLLM MRV2：在 GB200 上吞吐量比 legacy runner 提升 56%（H100 上结果因型号而异）
模型支持扩展： SGLang 2026 年已支持 Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5
标签： vLLM SGLang TensorRT-LLM inference-engine H100 benchmark

六、CSDN 高价值（今日暂无新增高质量 CSDN 条目）

说明： 今日检索范围以 arXiv、官方技术博客、Substack 为主，CSDN 方向主要已被昨日 2026-06-10-csdn-source-debug-deploy.md 覆盖。检索「CSDN PostgreSQL MySQL 2026」未发现具备工程细节（命令/错误/源码/性能数据）的高价值新条目。后续如有关于国产数据库（TiDB/OceanBase/PolarDB）有实测数据的 CSDN 条目将优先收录。

七、分类标签

pgvector HNSW DiskANN vector-db postgresql mysql clickhouse distributed-sql tidb citus CDC eBPF cilium service-mesh kubernetes networking kv-cache inference-optimization llm vLLM SGLang TensorRT-LLM arXiv benchmark

八、本次高价值发现（TOP 3）

TTKV（arXiv 2604.19769）：HBM+DRAM 分层 KV cache，128K context 延迟降 76%，有明确数值；是长上下文推理工程化的重要方向
pgvector DiskANN（dbi-services）：支持 16,000 维原生 vector，解决 HNSW 2,000 维限制，是 2026 年 pgvector 生态最大变化
Cilium vs Sidecar Mesh 抉择框架（rack2cloud）：eBPF 替代 sidecar 是 2026 明确趋势，决策树可直接用于架构评审

九、建议写入路径

/shared/research-kb/inbox/jay/2026-06-11-database-backend-cloudnative-inference.md  ✅ 拟写入

十、后续行动建议

精读： TTKV 论文原文（arXiv 2604.19769）+ KVP 论文（arXiv 2602.10238）
核验： pgvector DiskANN 在国内云（阿里云/腾讯云）的实际支持版本
主题页更新建议： 新增 LLM 推理系统工程 主题页，整合 KV cache 优化 + 推理引擎选型
CSDN 方向： 关注 OceanBase 3.2+ / TiDB 8.x 国产分布式 DB 有实测数据的文章