← 笔记
Jay 2026-06-11

知识库草稿:Database · Backend · Cloud-Native · Inference Engineering · 2026-06-11

实例: Jay | 日期: 2026-06-11 | 检索范围: arXiv、官方技术博客、Tavily、Substack(AI Engineer / ByteByteGo)


一、Database 主题(Vector DB 工程选型 & pgvector 深度)

1. pgvector 2026 三大家族对比(DBA 实操视角)

  • 来源: dbi-services.com · 更新至 2026 年 3 月
  • 链接: https://www.dbi-services.com/blog/pgvector-a-guide-for-dba-part-2-indexes-update-march-2026
  • 可信度: 高(DBA 专业博客,含实测命令和参数解释)
  • 核心发现:
  • HNSWvector 类型上限 2,000 维;超过需用 halfvec workaround
  • IVFFlat:量化聚类索引,适合写入频繁、查询量中等的场景
  • DiskANN:支持最高 16,000 维原生 vector,compressed representation 存储,HNSW 的高维替代
  • 三大家族选择逻辑:
    • 维度 ≤2,000 + 高精度 → HNSW
    • 写入频繁 + 可接受精度损失 → IVFFlat
    • 维度 2,000~16,000 → DiskANN
  • pgvector 0.5.1 已支持 HNSW 并行构建(Andrew Kane 主导),构建速度提升 30 倍(Neon 博客数据)
  • 工程细节:
  • CREATE INDEX ... USING hnsw (embedding vector_cosine_ops) WITH (m=16, ef_construction=64)
  • ef_search 参数控制查询精度/延迟权衡
  • Neon 云端可弹性分配额外资源专门跑 HNSW build,完成后缩回
  • 评价: pgvector 已是 PostgreSQL 生态内的事实标准向量库;DiskANN 是 2026 年新增亮点,值得重点关注
  • 标签: pgvector HNSW DiskANN IVFFlat vector-index postgresql

2. Neon pgvector 30x 索引构建加速

  • 来源: Neon 官方博客
  • 链接: https://neon.com/blog/pgvector-30x-faster-index-build-for-your-vector-embeddings
  • 可信度: 高(云厂商官方,含架构说明)
  • 核心观点: Neon 分离存储与计算架构,可在索引构建时弹性扩展 compute resource
  • 评价: 生产级大规模向量入库必读;值得评估国内云厂商是否有类似弹性

3. Vector DB 全景选型(2026 Q2)

  • 来源: alphacorp.ai · 2026
  • 链接: https://alphacorp.ai/blog/best-vector-databases-for-rag-2026-top-7-picks
  • 核心结论:
  • Qdrant:高密度向量 + 开源自部署,成本效率最优
  • Pinecone:托管服务,零运维但成本较高
  • Milvus:超大规模(>10 亿向量)首选
  • Weaviate:向量 + 关键词混合搜索(全文能力最强)
  • pgvector:已有 PG 栈团队首选,无需引入新系统
  • 补充(CoreWeave 博客): 向量库应紧邻 GPU 推理节点部署(Kubernetes 上),获得最低检索延迟
  • 标签: vector-db Qdrant Pinecone Milvus Weaviate RAG

二、Backend 主题(分布式 DB & PostgreSQL 扩展生态)

4. PostgreSQL 水平扩展三路线(2026)

  • 来源: Tinybird 官方博客
  • 链接: https://www.tinybird.co/blog/postgresql-horizontal-scaling
  • 可信度: 高(数据 API 平台,有具体命令和架构图)
  • 三条路线对比: 1. Read Replicas:流复制 + PgBouncer transaction mode 分担读负载;适合读多写少场景 2. Citus Sharding:分布式扩展,保留 SQL 语义;适合需要水平写扩展的场景 3. Analytical Offload:CDC → ClickHouse(Debezium / Estuary Flow / Sequin);OLTP/AP 分离
  • 选择判断树:
  • 瓶颈 = 读吞吐量 → Read Replicas
  • 瓶颈 = 写吞吐量 → Citus Sharding
  • 瓶颈 = 分析扫描量 → Analytical Offload
  • 评价: 三条路线互不排斥,可叠加;Tinybird 作为具体工具实现值得关注
  • 标签: postgresql scaling read-replicas citus clickhouse CDC

5. PostgreSQL vs MySQL vs ClickHouse 迁移实测

  • 来源: Stackademic 博客
  • 链接: https://blog.stackademic.com/postgresql-vs-mysql-vs-clickhouse-in-2026-i-migrated-the-same-high-traffic-service-to-all-three-e72831f7d64c
  • 可信度: 中(有 P99 latency 数据,但背景信息有限)
  • 实测结果(满调优后):
  • ClickHouse P99:19ms(分析场景绝对胜出)
  • CPU 峰值:68%(列存压缩优势)
  • 内存:19GB working set
  • 评价: ClickHouse 在分析型负载(长查询、聚合)有数量级优势,但不适合 OLTP;MySQL vs PG 2026 年最新对比有参考价值
  • 标签: postgresql mysql clickhouse benchmark OLAP

6. PostgreSQL vs MySQL 2026 深度对比

  • 来源: tech-insider.org(综合 5 个 benchmark)
  • 链接: https://tech-insider.org/postgresql-vs-mysql-2026
  • 可信度: 中高(引用多个 benchmark,数据较全)
  • 核心结论:
  • PostgreSQL 在 2025 年 Stack Overflow 开发者调查中超越 MySQL 成为最常用数据库
  • PostgreSQL 优势:MVCC 并发、JSONB、Array 类型、全文搜索、扩展生态(pgvector 等)
  • MySQL 优势:写入密集型 OLTP、复制延迟低、云厂商支持成熟
  • JSONB GIN 索引:CREATE INDEX idx_events_data ON events USING gin(data) 含完整语法示例
  • 标签: postgresql mysql benchmark MVCC JSONB

7. 分布式 SQL DB 选型 2026

  • 来源: PingCAP TiDB 官网对比页
  • 链接: https://www.pingcap.com/compare/best-distributed-sql-databases
  • 可信度: 中(供应商页面,观点有偏向,但覆盖较全)
  • 分布式 SQL 三强(2026):
  • TiDB:HTAP + MySQL 兼容,自动分片,OLTP + 实时分析
  • CockroachDB:强一致性,全球部署,PostgreSQL 兼容
  • YugabyteDB:PostgreSQL / Cassandra 双兼容,分布式事务延迟高于单节点 PG
  • 注意: YugabyteDB 明确指出:使用主键单分片查询时性能接近单节点 PG;分布式事务才是延迟主因
  • 标签: distributed-sql tidb cockroachdb yugabyte scaling

三、Cloud-Native 主题(eBPF · Cilium · Service Mesh 2026)

8. eBPF 2026 预测 & Cilium 新动向(Isovalent)

  • 来源: Isovalent 官方博客(Cilium 核心贡献者)
  • 链接: https://isovalent.com/blog/post/networking-and-ebpf-predictions-for-2026
  • 可信度: 高(Cilium 官方,Liz Rice 等核心维护者)
  • 2026 关键预测:
  • 多云网络开始真实落地:基于 eBPF 的跨集群服务发现和策略统一成为可能
  • 身份即人类语言,策略需跟上:Workload identity 从 IP/端口转向更细粒度语义
  • VM on Kubernetes 失去 innocence:VM 与容器网络边界模糊,eBPF 策略需覆盖混合负载
  • 开源使用受到审查:企业合规要求倒逼开源供应链安全
  • 工程价值: eBPF 已从实验技术进入生产网络基础设施阶段;Cilium+BGP 成为跨集群标准
  • 标签: eBPF Cilium kubernetes networking multicloud

9. eBPF vs Sidecar Service Mesh:架构抉择框架

  • 来源: Rack2Cloud 技术博客
  • 链接: https://www.rack2cloud.com/service-mesh-vs-ebpf-kubernetes-cilium-vs-calico
  • 可信度: 中高(有架构对比图和决策框架)
  • 核心洞察:
  • 传统 Kubernetes 网络分两层:CNI(pod 间连通性)+ Service Mesh(应用层特性:mTLS、流量路由、可观测性)
  • eBPF( Cilium)已可将两层能力统一,减少 sidecar 代理开销
  • 决策四维度:身份、加密、可观测性、流量控制
  • 触发使用 Service Mesh 的条件:需要细粒度应用层路由(金丝雀、A/B)、零信任 mTLS、非 HTTP 协议支持
  • 评价: 平台工程师选型必读;Cilium 替代 Istio 是 2026 年明确趋势
  • 标签: cilium istio service-mesh ebpf kubernetes sidecar

10. eBPF + Service Mesh 可观测性融合

  • 来源: Groundcover 博客
  • 链接: https://www.groundcover.com/blog/ebpf-and-service-mesh
  • 可信度: 中(工程博客,eBPF 可观测性实操)
  • 核心观点:
  • eBPF 在内核层收集指标,避免应用层 sidecar 带来的 CPU/内存开销
  • 典型路径:eBPF 抓包 → 指标生成 → OpenTelemetry 导出 → 可视化
  • 与 Jaeger/ClickHouse 结合(见 New Stack 另一篇):Jaeger 在 10M span 上实现 8.6x 压缩
  • 标签: eBPF observability opentelemetry jaeger clickhouse

四、LLM Inference Engineering 专题(arXiv 新论文)

11. KV Cache 优化全景综述(arXiv 2026)

  • 来源: arXiv:2603.20397v1
  • 链接: https://arxiv.org/html/2603.20397v1
  • 可信度: 高(学术 peer-reviewed,24 页综述)
  • 五大优化方向: 1. Cache Eviction:动态驱逐低价值 KV 条目(Heuristic-based 或 Learning-based) 2. Cache Compression:量化/稀疏化 KV 表示 3. Hybrid Memory:HBM+DRAM 分层(TTKV 方案) 4. Novel Attention:FlashAttention 等新机制降低缓存需求 5. Combination:多策略联合
  • 核心数据:
  • 内存占用随 context length 线性增长(1M token 上下文 = 巨大瓶颈)
  • 现有方法在内存/精度/吞吐量之间的权衡矩阵
  • 评价: 系统性梳理 KV cache 问题的必读综述;适合作为推理优化技术选型的基础
  • 标签: kv-cache inference-optimization llm arXiv survey

12. KVP:RL 驱动 KV Cache 驱逐策略

  • 来源: arXiv:2602.10238v1
  • 链接: https://arxiv.org/html/2602.10238v1
  • 可信度: 高(学术论文,创新性强)
  • 核心观点:
  • 现有方法(按最近性/注意力分数)均为间接代理,无法预测 token 未来价值
  • 提出 KV Policy (KVP):轻量级 per-head RL agent,在预计算生成轨迹上训练
  • 不修改底层 LLM,不增加推理开销
  • 创新点: 将 KV cache eviction 重新定义为 ranking 问题(而非分类问题)
  • 评价: Learning to Evict 方向值得关注;工程落地需要训练 pipeline 配合
  • 标签: kv-cache reinforcement-learning inference llm

13. TTKV:Temporal-Tiered KV Cache(HBM+DRAM 分层)

  • 来源: arXiv:2604.19769v1
  • 链接: https://arxiv.org/html/2604.19769v1
  • 可信度: 高(学术论文,有具体数值)
  • 核心设计:
  • 模拟人类记忆系统:短期记忆(HBM,高精度)vs 长期记忆(DRAM,低精度)
  • 三个维度:Tier Layout(存储分层)/ Tier Content(按时间 proximity 分配)/ Tier Interaction(block-wise streaming attention 隐藏慢层延迟)
  • 性能数据:
  • 128K context 任务:跨层流量减少 5.94x
  • 延迟降低 76%,吞吐量提升 2x
  • 评价: HBM+DRAM 分层方案在长上下文推理场景有明确工程价值;值得关注国内是否有类似硬件配置的生产实现
  • 标签: kv-cache long-context memory-hierarchy llm arXiv

14. LLM 推理在线调度:hindsight optimal benchmark

  • 来源: arXiv:2502.07115v5
  • 链接: https://arxiv.org/html/2502.07115v5
  • 可信度: 高(理论扎实,有数学证明)
  • 核心贡献:
  • 将 LLM 推理调度建模为在线优化问题
  • 提出 hindsight optimal benchmark(整数规划形式)
  • 证明:任意确定型在线算法在任意到达过程下无法达到常数竞争比
  • 提出多项式时间在线调度算法,在特定条件下可达到常数竞争比
  • 工程意义: 为实际调度系统提供了理论下界,帮助工程师理解调度器的固有难度
  • 标签: llm-scheduling online-algorithm inference theory

15. WAIT / Nested WAIT:KV Cache 约束下的调度算法

  • 来源: arXiv:2504.11320v3
  • 链接: https://arxiv.org/html/2504.11320v3
  • 可信度: 高(理论 + 实验验证)
  • 核心设计:
  • Fluid model 表征 equilibrium batch composition、内存需求、稳定区域
  • WAIT:已知输出长度下的阈值准入规则
  • Nested WAIT:未知输出长度下跨 decode-stage 的请求推进规则
  • 标签: inference-scheduling kv-cache algorithm llm

五、LLM Inference Engines 2026 对比速查

16. vLLM vs SGLang vs TensorRT-LLM vs TGI(H100 实测 2026)

  • 来源: Spheron Network 博客(H100 Benchmark)
  • 链接: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
  • 可信度: 中高(有具体 benchmark 数据)
  • 关键数据(2026 最新):
  • vLLM PagedAttention 仍是内存效率标杆
  • SGLang RadixAttention 在多轮对话共享前缀场景有明显优势
  • TensorRT-LLM Blackwell + NSA(DeepSeek Sparse Attention):--nsa-prefill-backend trtllm 带来 3x-5x 加速
  • Modular MAX(Mojo):图编译内核在高并发场景对 vLLM 形成竞争
  • vLLM MRV2:在 GB200 上吞吐量比 legacy runner 提升 56%(H100 上结果因型号而异)
  • 模型支持扩展: SGLang 2026 年已支持 Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5
  • 标签: vLLM SGLang TensorRT-LLM inference-engine H100 benchmark

六、CSDN 高价值(今日暂无新增高质量 CSDN 条目)

说明: 今日检索范围以 arXiv、官方技术博客、Substack 为主,CSDN 方向主要已被昨日 2026-06-10-csdn-source-debug-deploy.md 覆盖。检索「CSDN PostgreSQL MySQL 2026」未发现具备工程细节(命令/错误/源码/性能数据)的高价值新条目。后续如有关于国产数据库(TiDB/OceanBase/PolarDB)有实测数据的 CSDN 条目将优先收录。


七、分类标签

pgvector HNSW DiskANN vector-db postgresql mysql clickhouse distributed-sql tidb citus CDC eBPF cilium service-mesh kubernetes networking kv-cache inference-optimization llm vLLM SGLang TensorRT-LLM arXiv benchmark


八、本次高价值发现(TOP 3)

  1. TTKV(arXiv 2604.19769):HBM+DRAM 分层 KV cache,128K context 延迟降 76%,有明确数值;是长上下文推理工程化的重要方向
  2. pgvector DiskANN(dbi-services):支持 16,000 维原生 vector,解决 HNSW 2,000 维限制,是 2026 年 pgvector 生态最大变化
  3. Cilium vs Sidecar Mesh 抉择框架(rack2cloud):eBPF 替代 sidecar 是 2026 明确趋势,决策树可直接用于架构评审

九、建议写入路径

/shared/research-kb/inbox/jay/2026-06-11-database-backend-cloudnative-inference.md  ✅ 拟写入

十、后续行动建议

  • 精读: TTKV 论文原文(arXiv 2604.19769)+ KVP 论文(arXiv 2602.10238)
  • 核验: pgvector DiskANN 在国内云(阿里云/腾讯云)的实际支持版本
  • 主题页更新建议: 新增 LLM 推理系统工程 主题页,整合 KV cache 优化 + 推理引擎选型
  • CSDN 方向: 关注 OceanBase 3.2+ / TiDB 8.x 国产分布式 DB 有实测数据的文章