知识库草稿:Database · Backend · Cloud-Native · Inference Engineering · 2026-06-11
实例: Jay | 日期: 2026-06-11 | 检索范围: arXiv、官方技术博客、Tavily、Substack(AI Engineer / ByteByteGo)
一、Database 主题(Vector DB 工程选型 & pgvector 深度)
1. pgvector 2026 三大家族对比(DBA 实操视角)
- 来源: dbi-services.com · 更新至 2026 年 3 月
- 链接:
https://www.dbi-services.com/blog/pgvector-a-guide-for-dba-part-2-indexes-update-march-2026 - 可信度: 高(DBA 专业博客,含实测命令和参数解释)
- 核心发现:
- HNSW:
vector类型上限 2,000 维;超过需用halfvecworkaround - IVFFlat:量化聚类索引,适合写入频繁、查询量中等的场景
- DiskANN:支持最高 16,000 维原生
vector,compressed representation 存储,HNSW 的高维替代 - 三大家族选择逻辑:
- 维度 ≤2,000 + 高精度 → HNSW
- 写入频繁 + 可接受精度损失 → IVFFlat
- 维度 2,000~16,000 → DiskANN
- pgvector 0.5.1 已支持 HNSW 并行构建(Andrew Kane 主导),构建速度提升 30 倍(Neon 博客数据)
- 工程细节:
CREATE INDEX ... USING hnsw (embedding vector_cosine_ops) WITH (m=16, ef_construction=64)ef_search参数控制查询精度/延迟权衡- Neon 云端可弹性分配额外资源专门跑 HNSW build,完成后缩回
- 评价: pgvector 已是 PostgreSQL 生态内的事实标准向量库;DiskANN 是 2026 年新增亮点,值得重点关注
- 标签:
pgvectorHNSWDiskANNIVFFlatvector-indexpostgresql
2. Neon pgvector 30x 索引构建加速
- 来源: Neon 官方博客
- 链接:
https://neon.com/blog/pgvector-30x-faster-index-build-for-your-vector-embeddings - 可信度: 高(云厂商官方,含架构说明)
- 核心观点: Neon 分离存储与计算架构,可在索引构建时弹性扩展 compute resource
- 评价: 生产级大规模向量入库必读;值得评估国内云厂商是否有类似弹性
3. Vector DB 全景选型(2026 Q2)
- 来源: alphacorp.ai · 2026
- 链接:
https://alphacorp.ai/blog/best-vector-databases-for-rag-2026-top-7-picks - 核心结论:
- Qdrant:高密度向量 + 开源自部署,成本效率最优
- Pinecone:托管服务,零运维但成本较高
- Milvus:超大规模(>10 亿向量)首选
- Weaviate:向量 + 关键词混合搜索(全文能力最强)
- pgvector:已有 PG 栈团队首选,无需引入新系统
- 补充(CoreWeave 博客): 向量库应紧邻 GPU 推理节点部署(Kubernetes 上),获得最低检索延迟
- 标签:
vector-dbQdrantPineconeMilvusWeaviateRAG
二、Backend 主题(分布式 DB & PostgreSQL 扩展生态)
4. PostgreSQL 水平扩展三路线(2026)
- 来源: Tinybird 官方博客
- 链接:
https://www.tinybird.co/blog/postgresql-horizontal-scaling - 可信度: 高(数据 API 平台,有具体命令和架构图)
- 三条路线对比: 1. Read Replicas:流复制 + PgBouncer transaction mode 分担读负载;适合读多写少场景 2. Citus Sharding:分布式扩展,保留 SQL 语义;适合需要水平写扩展的场景 3. Analytical Offload:CDC → ClickHouse(Debezium / Estuary Flow / Sequin);OLTP/AP 分离
- 选择判断树:
- 瓶颈 = 读吞吐量 → Read Replicas
- 瓶颈 = 写吞吐量 → Citus Sharding
- 瓶颈 = 分析扫描量 → Analytical Offload
- 评价: 三条路线互不排斥,可叠加;Tinybird 作为具体工具实现值得关注
- 标签:
postgresqlscalingread-replicascitusclickhouseCDC
5. PostgreSQL vs MySQL vs ClickHouse 迁移实测
- 来源: Stackademic 博客
- 链接:
https://blog.stackademic.com/postgresql-vs-mysql-vs-clickhouse-in-2026-i-migrated-the-same-high-traffic-service-to-all-three-e72831f7d64c - 可信度: 中(有 P99 latency 数据,但背景信息有限)
- 实测结果(满调优后):
- ClickHouse P99:19ms(分析场景绝对胜出)
- CPU 峰值:68%(列存压缩优势)
- 内存:19GB working set
- 评价: ClickHouse 在分析型负载(长查询、聚合)有数量级优势,但不适合 OLTP;MySQL vs PG 2026 年最新对比有参考价值
- 标签:
postgresqlmysqlclickhousebenchmarkOLAP
6. PostgreSQL vs MySQL 2026 深度对比
- 来源: tech-insider.org(综合 5 个 benchmark)
- 链接:
https://tech-insider.org/postgresql-vs-mysql-2026 - 可信度: 中高(引用多个 benchmark,数据较全)
- 核心结论:
- PostgreSQL 在 2025 年 Stack Overflow 开发者调查中超越 MySQL 成为最常用数据库
- PostgreSQL 优势:MVCC 并发、JSONB、Array 类型、全文搜索、扩展生态(pgvector 等)
- MySQL 优势:写入密集型 OLTP、复制延迟低、云厂商支持成熟
- JSONB GIN 索引:
CREATE INDEX idx_events_data ON events USING gin(data)含完整语法示例 - 标签:
postgresqlmysqlbenchmarkMVCCJSONB
7. 分布式 SQL DB 选型 2026
- 来源: PingCAP TiDB 官网对比页
- 链接:
https://www.pingcap.com/compare/best-distributed-sql-databases - 可信度: 中(供应商页面,观点有偏向,但覆盖较全)
- 分布式 SQL 三强(2026):
- TiDB:HTAP + MySQL 兼容,自动分片,OLTP + 实时分析
- CockroachDB:强一致性,全球部署,PostgreSQL 兼容
- YugabyteDB:PostgreSQL / Cassandra 双兼容,分布式事务延迟高于单节点 PG
- 注意: YugabyteDB 明确指出:使用主键单分片查询时性能接近单节点 PG;分布式事务才是延迟主因
- 标签:
distributed-sqltidbcockroachdbyugabytescaling
三、Cloud-Native 主题(eBPF · Cilium · Service Mesh 2026)
8. eBPF 2026 预测 & Cilium 新动向(Isovalent)
- 来源: Isovalent 官方博客(Cilium 核心贡献者)
- 链接:
https://isovalent.com/blog/post/networking-and-ebpf-predictions-for-2026 - 可信度: 高(Cilium 官方,Liz Rice 等核心维护者)
- 2026 关键预测:
- 多云网络开始真实落地:基于 eBPF 的跨集群服务发现和策略统一成为可能
- 身份即人类语言,策略需跟上:Workload identity 从 IP/端口转向更细粒度语义
- VM on Kubernetes 失去 innocence:VM 与容器网络边界模糊,eBPF 策略需覆盖混合负载
- 开源使用受到审查:企业合规要求倒逼开源供应链安全
- 工程价值: eBPF 已从实验技术进入生产网络基础设施阶段;Cilium+BGP 成为跨集群标准
- 标签:
eBPFCiliumkubernetesnetworkingmulticloud
9. eBPF vs Sidecar Service Mesh:架构抉择框架
- 来源: Rack2Cloud 技术博客
- 链接:
https://www.rack2cloud.com/service-mesh-vs-ebpf-kubernetes-cilium-vs-calico - 可信度: 中高(有架构对比图和决策框架)
- 核心洞察:
- 传统 Kubernetes 网络分两层:CNI(pod 间连通性)+ Service Mesh(应用层特性:mTLS、流量路由、可观测性)
- eBPF( Cilium)已可将两层能力统一,减少 sidecar 代理开销
- 决策四维度:身份、加密、可观测性、流量控制
- 触发使用 Service Mesh 的条件:需要细粒度应用层路由(金丝雀、A/B)、零信任 mTLS、非 HTTP 协议支持
- 评价: 平台工程师选型必读;Cilium 替代 Istio 是 2026 年明确趋势
- 标签:
ciliumistioservice-meshebpfkubernetessidecar
10. eBPF + Service Mesh 可观测性融合
- 来源: Groundcover 博客
- 链接:
https://www.groundcover.com/blog/ebpf-and-service-mesh - 可信度: 中(工程博客,eBPF 可观测性实操)
- 核心观点:
- eBPF 在内核层收集指标,避免应用层 sidecar 带来的 CPU/内存开销
- 典型路径:eBPF 抓包 → 指标生成 → OpenTelemetry 导出 → 可视化
- 与 Jaeger/ClickHouse 结合(见 New Stack 另一篇):Jaeger 在 10M span 上实现 8.6x 压缩
- 标签:
eBPFobservabilityopentelemetryjaegerclickhouse
四、LLM Inference Engineering 专题(arXiv 新论文)
11. KV Cache 优化全景综述(arXiv 2026)
- 来源: arXiv:2603.20397v1
- 链接:
https://arxiv.org/html/2603.20397v1 - 可信度: 高(学术 peer-reviewed,24 页综述)
- 五大优化方向: 1. Cache Eviction:动态驱逐低价值 KV 条目(Heuristic-based 或 Learning-based) 2. Cache Compression:量化/稀疏化 KV 表示 3. Hybrid Memory:HBM+DRAM 分层(TTKV 方案) 4. Novel Attention:FlashAttention 等新机制降低缓存需求 5. Combination:多策略联合
- 核心数据:
- 内存占用随 context length 线性增长(1M token 上下文 = 巨大瓶颈)
- 现有方法在内存/精度/吞吐量之间的权衡矩阵
- 评价: 系统性梳理 KV cache 问题的必读综述;适合作为推理优化技术选型的基础
- 标签:
kv-cacheinference-optimizationllmarXivsurvey
12. KVP:RL 驱动 KV Cache 驱逐策略
- 来源: arXiv:2602.10238v1
- 链接:
https://arxiv.org/html/2602.10238v1 - 可信度: 高(学术论文,创新性强)
- 核心观点:
- 现有方法(按最近性/注意力分数)均为间接代理,无法预测 token 未来价值
- 提出 KV Policy (KVP):轻量级 per-head RL agent,在预计算生成轨迹上训练
- 不修改底层 LLM,不增加推理开销
- 创新点: 将 KV cache eviction 重新定义为 ranking 问题(而非分类问题)
- 评价: Learning to Evict 方向值得关注;工程落地需要训练 pipeline 配合
- 标签:
kv-cachereinforcement-learninginferencellm
13. TTKV:Temporal-Tiered KV Cache(HBM+DRAM 分层)
- 来源: arXiv:2604.19769v1
- 链接:
https://arxiv.org/html/2604.19769v1 - 可信度: 高(学术论文,有具体数值)
- 核心设计:
- 模拟人类记忆系统:短期记忆(HBM,高精度)vs 长期记忆(DRAM,低精度)
- 三个维度:Tier Layout(存储分层)/ Tier Content(按时间 proximity 分配)/ Tier Interaction(block-wise streaming attention 隐藏慢层延迟)
- 性能数据:
- 128K context 任务:跨层流量减少 5.94x
- 延迟降低 76%,吞吐量提升 2x
- 评价: HBM+DRAM 分层方案在长上下文推理场景有明确工程价值;值得关注国内是否有类似硬件配置的生产实现
- 标签:
kv-cachelong-contextmemory-hierarchyllmarXiv
14. LLM 推理在线调度:hindsight optimal benchmark
- 来源: arXiv:2502.07115v5
- 链接:
https://arxiv.org/html/2502.07115v5 - 可信度: 高(理论扎实,有数学证明)
- 核心贡献:
- 将 LLM 推理调度建模为在线优化问题
- 提出 hindsight optimal benchmark(整数规划形式)
- 证明:任意确定型在线算法在任意到达过程下无法达到常数竞争比
- 提出多项式时间在线调度算法,在特定条件下可达到常数竞争比
- 工程意义: 为实际调度系统提供了理论下界,帮助工程师理解调度器的固有难度
- 标签:
llm-schedulingonline-algorithminferencetheory
15. WAIT / Nested WAIT:KV Cache 约束下的调度算法
- 来源: arXiv:2504.11320v3
- 链接:
https://arxiv.org/html/2504.11320v3 - 可信度: 高(理论 + 实验验证)
- 核心设计:
- Fluid model 表征 equilibrium batch composition、内存需求、稳定区域
- WAIT:已知输出长度下的阈值准入规则
- Nested WAIT:未知输出长度下跨 decode-stage 的请求推进规则
- 标签:
inference-schedulingkv-cachealgorithmllm
五、LLM Inference Engines 2026 对比速查
16. vLLM vs SGLang vs TensorRT-LLM vs TGI(H100 实测 2026)
- 来源: Spheron Network 博客(H100 Benchmark)
- 链接:
https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks - 可信度: 中高(有具体 benchmark 数据)
- 关键数据(2026 最新):
- vLLM PagedAttention 仍是内存效率标杆
- SGLang RadixAttention 在多轮对话共享前缀场景有明显优势
- TensorRT-LLM Blackwell + NSA(DeepSeek Sparse Attention):
--nsa-prefill-backend trtllm带来 3x-5x 加速 - Modular MAX(Mojo):图编译内核在高并发场景对 vLLM 形成竞争
- vLLM MRV2:在 GB200 上吞吐量比 legacy runner 提升 56%(H100 上结果因型号而异)
- 模型支持扩展: SGLang 2026 年已支持 Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5
- 标签:
vLLMSGLangTensorRT-LLMinference-engineH100benchmark
六、CSDN 高价值(今日暂无新增高质量 CSDN 条目)
说明: 今日检索范围以 arXiv、官方技术博客、Substack 为主,CSDN 方向主要已被昨日 2026-06-10-csdn-source-debug-deploy.md 覆盖。检索「CSDN PostgreSQL MySQL 2026」未发现具备工程细节(命令/错误/源码/性能数据)的高价值新条目。后续如有关于国产数据库(TiDB/OceanBase/PolarDB)有实测数据的 CSDN 条目将优先收录。
七、分类标签
pgvector HNSW DiskANN vector-db postgresql mysql clickhouse distributed-sql tidb citus CDC eBPF cilium service-mesh kubernetes networking kv-cache inference-optimization llm vLLM SGLang TensorRT-LLM arXiv benchmark
八、本次高价值发现(TOP 3)
- TTKV(arXiv 2604.19769):HBM+DRAM 分层 KV cache,128K context 延迟降 76%,有明确数值;是长上下文推理工程化的重要方向
- pgvector DiskANN(dbi-services):支持 16,000 维原生 vector,解决 HNSW 2,000 维限制,是 2026 年 pgvector 生态最大变化
- Cilium vs Sidecar Mesh 抉择框架(rack2cloud):eBPF 替代 sidecar 是 2026 明确趋势,决策树可直接用于架构评审
九、建议写入路径
/shared/research-kb/inbox/jay/2026-06-11-database-backend-cloudnative-inference.md ✅ 拟写入
十、后续行动建议
- 精读: TTKV 论文原文(arXiv 2604.19769)+ KVP 论文(arXiv 2602.10238)
- 核验: pgvector DiskANN 在国内云(阿里云/腾讯云)的实际支持版本
- 主题页更新建议: 新增
LLM 推理系统工程主题页,整合 KV cache 优化 + 推理引擎选型 - CSDN 方向: 关注 OceanBase 3.2+ / TiDB 8.x 国产分布式 DB 有实测数据的文章