← 笔记
Jay 2026-06-25 15:05

技术简报 · Jay · 2026-06-25 下午场(15:05)

检索范围:arXiv / DeployBase / Dev Newsletter / OpenSearch Release / GitHub Trending / Substack / Tavily 主题:Database Benchmark · Backend Inference Engine · Cloud-Native · CSDN · Reproduction 标签:database, backend, cloud-native, csdn, reproduction


📦 一、Database — 向量数据库 2026 Benchmark 格局剧变

1. pgvector + pgvectorscale:PostgreSQL 向量搜索逆袭

核心数据(来源:Vecstore / Dev.to / Sean Pedersen Blog):

引擎 规模 QPS P95 延迟 备注
pgvector + pgvectorscale 50M 向量 471 QPS 99% recall,11.4× 优于 Qdrant
Pinecone(基线) 50M 向量 ~200 QPS Serverless,商用成本高
Qdrant 50M 向量 ~41 QPS 独立向量引擎
pgvector(标准) 10M 向量 28× 降低 pgvectorscale 对比基线

关键技术点: - pgvectorscale 基于 Rust + PGRX 框架开发(pgvector 本身是 C) - 引入 StreamingDiskANN 索引,弥补 pgvector HNSW 的规模瓶颈 - 适用场景:已有 PostgreSQL 架构、团队缺乏运维独立向量数据库能力、<10 亿向量规模 - CERN 生产案例:TimescaleDB 处理每秒数百万指标写入

评价: 2025 年的"pgvector 太慢"结论在 2026 年已不成立。pgvectorscale 让 PostgreSQL 在 100k–1 亿向量区间具有强竞争力。真正的竞争分水岭是 10 亿以上,此时专用向量引擎(Pinecone、Milvus)仍有架构优势。

参考: https://dev.to/polliog/postgresql-as-a-vector-database-when-to-use-pgvector-vs-pinecone-vs-weaviate-4kfi | https://github.com/timescale/pgvectorscale


2. OpenSearch 3.0:向量数据库能力大幅增强

发布时间: 2025 年 5 月(GA),2026 年持续迭代 来源: OpenSearch 官方博客 / Blocks and Files / HPCwire

核心新特性: - GPU 加速向量搜索:引入 GPU 驱动的向量索引和检索,AI 工作负载吞吐提升 - MCP(Model Context Protocol)支持:AI Agent 交互原生集成 - Neural Search 增强:改进 ANN 索引算法 - 基于 Apache Lucene 10,综合性能较 OpenSearch 2.19 提升 20%,较 1.3 版本提升 9.5× - 向量数据库功能成为 3.0 核心宣传点

适用场景: 已有 OpenSearch 集群(Elasticsearch fork)的团队需要向量搜索能力;不想引入独立向量数据库的混合搜索场景。

评价: OpenSearch 3.0 是向量数据库格局中的"老牌玩家新入局"。Lucene 10 的底层升级不容忽视,但其向量能力成熟度仍需和生产级专用向量库(Pinecone、Qdrant)对比验证。

参考: https://opensearch.org/blog/unveiling-opensearch-3-0 | https://www.blocksandfiles.com/ai-ml/2025/05/07/opensearch-30-targets-fast-ai-search-with-mcp-and-gpu-powered-vectors/1586777


3. Turso vs Neon vs PlanetScale 2026 对比(Serverless 数据库)

来源: Dev Newsletter「State of Databases 2026」

产品 底层技术 架构特点 2026 动态
Turso libSQL(SQLite fork) 边缘嵌入,嵌入式数据库 持续扩张嵌入式场景
Neon PostgreSQL Serverless 分支存储,秒级冷启动 成本优化,自动化存储压缩
PlanetScale MySQL 分支工作流,Vitess 底层 停止 Growth 计划转向企业定价

评价: 无服务器数据库在 2026 年进入"务实阶段"——概念热度褪去,生产选型更关注成本模型和具体场景匹配度。

参考: https://devnewsletter.com/p/state-of-databases-2026


4. Apache Iceberg 赢得表格式战争

来源: Dev Newsletter「State of Databases 2026」

2026 年现状: Iceberg 成为事实标准: - Microsoft Fabric、Oracle 26ai、Snowflake、Databricks 全部原生支持 Iceberg 读写 - DuckDB 1.4.2 新增完整 Iceberg 写支持(INSERT/UPDATE/DELETE) - Snowflake 开源 pg_lake:PostgreSQL 可直接查询 Iceberg 表 - TimescaleDB 2.23.0:支持 PostgreSQL 18 + UUIDv7 压缩(存储减少 30%+,查询提速 2×)

评价: Iceberg 的胜利意味着数据湖格式大一统趋势确立。2024–2025 年还在争论的"Delta vs Parquet vs Iceberg"格局已定。

参考: https://devnewsletter.com/p/state-of-databases-2026


⚙️ 二、Backend — 推理引擎 Benchmark 与 KV Cache 学术进展

1. 推理引擎 2026:SGLang vs vLLM 深度对比

来源: DeployBase「Best LLM Inference Engines 2026」

性能数据:

引擎 TTFT(单请求) 吞吐量(A100 80GB) 核心创新
SGLang 80–120ms ~2,500 tokens/s Radix Attention(trie 前缀缓存)
vLLM ~140–170ms ~3,500 tokens/s PagedAttention(OS 页表式 KV Cache)
TGI(Text Generation Inference) ~2,000 tokens/s HuggingFace 原生支持
llama.cpp CPU 边缘推理 无 GPU 场景最低成本

SGLang 关键技术:Radix Attention - 将相同前缀(系统 prompt、共享上下文)的请求的注意力计算存储在 trie(前缀树) 中 - 多轮对话、多阶段工作流:相同前缀的计算结果直接复用,显著降低延迟 - 支持函数抽象:多阶段推理(RAG、多步推理、结构化输出)一次 API 调用完成,无需多次往返

vLLM 关键技术:PagedAttention - 将 KV Cache 视为 OS 页表管理:固定大小页面,按需分配 - 短上下文请求减少页面浪费,相同硬件可批处理 10–50 请求(传统方式仅 2–5)

选型建议: - 交互式实时聊天、TTFT 敏感 → SGLang(快 30–40%) - 批量吞吐、离线推理 → vLLM(吞吐量最优) - CPU/边缘/无 GPU 资源 → llama.cpp

参考: https://deploybase.ai/articles/best-llm-inference-engine


2. KV Cache 学术论文:2026 新发表(ICLR / ICML / NeurIPS)

来源: arXiv 官方页面

2a. KV Cache Transform Coding(ICLR 2026)

  • arXiv: https://arxiv.org/abs/2511.01815(cs.CL)
  • 核心方法: 对 KV Cache 进行 Transform Coding(信号处理压缩技术),实现 LLM 推理时的紧凑存储
  • 会议: ICLR 2026(已接收)
  • 可信度: 高(顶会接收,arXiv 提供代码仓库链接)

2b. KV Cache Queueing-Theoretic Framework(ICML 2026)

  • arXiv: https://arxiv.org/abs/2605.04595(cs.LG)
  • 核心方法: 排队论框架分析 KV Cache 内存约束下 LLM 推理的稳定性
  • 会议: ICML 2026(已接收)
  • 可信度: 高(ICML 2026 接收,数学优化与 ML 交叉)

2c. KV Cache Optimization Strategies for Scalable LLM Inference(arXiv)

  • arXiv: https://arxiv.org/abs/2603.20397(cs.LG)
  • 篇幅: 24 页,14 图
  • 状态: 预印本(非会议接收,需核验)
  • 可信度: 中(预印本,非同行评审发布,但作者标注了 ACM 类号)

2d. KVQuant:百万级上下文( NeurIPS Poster)

  • 来源: 早期简报提及
  • 会议: NeurIPS(2025,Poster)
  • 核心突破: 量化 KV Cache 支持百万级上下文长度

综合评价: KV Cache 是 2026 年 LLM 推理优化最活跃的研究方向之一。Transform Coding 和排队论方法代表了从"工程经验"到"理论分析"的不同路径。短期(1–2 年)最可能落地的是量化方法和 Prefix caching 组合。

建议精读优先级: 2a(ICLR,代码已公开)> 2b(ICML,理论框架)> 2d(NeurIPS,实验验证)> 2c(预印本)


3. Sebastian Raschka LLM 论文清单 2026(Q1–Q2)

来源: Sebastian Raschka PhD Substack,2026-06-06 发布(付费) 订阅地址: https://magazine.sebastianraschka.com/p/llm-research-papers-2026-part1

十大分类框架(1–5 月): 1. Architecture and Model Design 2. Efficient Training and Scaling 3. Inference Efficiency and KV Cache ⭐ 4. Sparse Attention and Long Context 5. Reasoning and Test-Time Compute 6. Reinforcement Learning and RLVR 7. Agent Systems and Tool Use ⭐ 8. Coding Agents and Software Engineering ⭐ 9. Diffusion Language Models 10. Model Evaluation and Benchmarks

值得关注的 2026 趋势(Raschka 观点): - 架构创新不再只是"把 Transformer 做大",开始出现混合架构(Nemotron 3、Arcee Trinity) - Inference Efficiency 和 Agent Systems 是两个最活跃的论文方向

评价: Raschka 的清单是高质量 AI 研究导航器,建议加入每周必读清单。付费内容($10/月)性价比较高。

参考: https://magazine.sebastianraschka.com/p/llm-research-papers-2026-part1


☁️ 三、Cloud-Native — K8s 数据库 / MCP / 边缘推理

1. OpenSearch 3.0 与 AI Agent(MCP)

已在"Database"部分详述。 OpenSearch 3.0 的 MCP 支持是关键云原生 AI 集成信号:向量数据库正在从"检索基础设施"演化为"AI Agent 记忆层组件"。


2. llama.cpp CPU 边缘推理

来源: DeployBase Benchmark

核心定位: - 无 GPU 资源约束场景(如 IoT、边缘设备、老旧服务器) - llama.cpp 在 CPU 上的推理效率仍是最优开源方案 - 适合需要本地隐私推理(数据不出境)或极低成本部署的场景

2026 年更新: SGLang 和 vLLM 开始支持 llama.cpp 作为量化推理后端,但独立部署仍以 llama.cpp 为标准。


📝 四、CSDN — 补充评估(本轮聚焦)

注:今日已有两篇 CSDN 综合草稿(08:20、12:21),以下为 15:05 检索到的补充线索

来源: Tavily 检索「CSDN 2026 database backend inference」

待核验项: - pgvector 0.7.x 最新版本特性(Rust FFI 集成、HNSW 参数调优) - SGLang 0.4+ 新版本函数调用 ABI 变更 - 国内云厂商(DBA、冰蚀、阿里云)数据库 AI 能力集成案例

CSDN 选稿标准重申(严格执行): - ✅ 有版本/环境/命令/源码分析/复现过程/真实排障经验 - ❌ 纯概念介绍、官方文档抄录、无实测数据的"最佳实践"文


🔬 五、Reproduction — 可复现项清单

高优先级(建议本周行动)

R1:pgvectorscale 本地 Benchmark

目标: 在 10M 向量规模下验证 pgvectorscale vs pgvector 延迟差异 工具: TimescaleDB 2.23+ / pgvectorscale(GitHub 有构建指南) 参考: https://github.com/timescale/pgvectorscale 难度: 低(Docker 一键部署,有完整 benchmark 脚本) 行动建议: 克隆 repo,运行 tests/benchmark.py,记录 QPS 和 P95 延迟

R2:SGLang Radix Attention 多轮对话复现

目标: 验证 SGLang 的 Radix Attention 在相同系统 prompt 多轮对话中的 TTFT 改进 工具: SGLang 0.4+ / Llama-3 70B / A100 或 H100 参考: https://deploybase.ai/articles/best-llm-inference-engine 难度: 中(需要 GPU 资源) 对比对象: 同等条件下 vLLM TTFT 数据

R3:KV Cache Transform Coding(ICLR 2026)代码复现

目标: 复现 arXiv:2511.01815 的实验结果,验证压缩率与精度损失 代码来源: arXiv 页「Code, Data and Media」区域(需下载) 参考: https://arxiv.org/abs/2511.01815 难度: 高(需理解 Transform Coding 信号处理方法,建议 2 人协作) 替代方案: 先精读论文方法章节,评估代码仓库维护状态再决定

中优先级

目标: 在单节点验证 OpenSearch 3.0 向量搜索性能对比 2.x 的提升 工具: Docker Compose(OpenSearch 3.0 官方镜像) 参考: https://opensearch.org/blog/unveiling-opensearch-3-0 难度: 低–中(有 Docker 环境即可)

R5:DuckDB 1.4.2 Iceberg 写支持

目标: 验证 DuckDB 对 Iceberg 表的 INSERT/UPDATE/DELETE 支持 工具: DuckDB 1.4.2+ 参考: https://devnewsletter.com/p/state-of-databases-2026 难度: 低(DuckDB CLI 或 Python 绑定即可)


📋 汇总表

类别 高价值条目 可信度 精读优先级
database pgvectorscale Benchmark(471 QPS) ⭐⭐⭐
database OpenSearch 3.0 GPU Vector + MCP ⭐⭐
database Apache Iceberg 统一格局 ⭐⭐
backend SGLang vs vLLM Benchmark ⭐⭐⭐
backend KV Cache Transform Coding(ICLR 2026) ⭐⭐⭐
backend KV Cache Queueing Theory(ICML 2026) ⭐⭐
reproduction pgvectorscale 本地 Benchmark R1
reproduction SGLang Radix Attention 多轮复现 R2
reproduction KV Cache Transform Coding 代码复现 R3

📁 建议写入路径

本次草稿(15:05 场次): - /shared/research-kb/inbox/jay/2026-06-25-1505-database-backend-cloudnative-csdn-reproduction.md ✅ 已写入

建议后续行动: 1. 将 R1(pgvectorscale Benchmark)扩展为独立精读报告,写入 YYYY-MM-DD-pgvectorscale-benchmark.md 2. 将 KV Cache Transform Coding 精读笔记写入 YYYY-MM-DD-kvcache-iclr2026-reading-notes.md 3. CSDN 补充核验可合并到明日 08:20 场次,避免重复产出


本简报由 Jay 实例(2026-06-25 15:05 场次)生成 数据来源:Tavily / arXiv / DeployBase / Dev Newsletter / OpenSearch 官方 / GitHub / Substack 不包含 API Key、Cookie 或私有链接