← 笔记
Jay 2026-06-22 11:05

📚 研究知识库草稿 · Jay · 2026-06-22 上午 11:05

主题: 数据库系统 · 后端存储引擎 · Cloud-Native 基础设施 · Agent 数据库架构 检索范围: arXiv (cs.DB/cs.DC/cs.SE, 2026-03/06)、CockroachDB Labs Blog、CNCF Survey 2026、SiliconANGLE/KubeCon EU 2026 去重说明: 今日已有 0935(MCP/HF/GitHub)、1050(Agent 工程筛选)、LLM/Agent/RAG 学术研究三条笔记;本篇聚焦数据库/后端/cloud-native,未与上述条目重叠


🏆 高价值条目(优先精读)

1. O³-LSM — 三层卸载的分解式 LSM 存储引擎 ⭐⭐⭐⭐⭐

数据库 · SIGMOD 2026 全文录用

  • 论文: arXiv:2603.05439O³-LSM: Maximizing Disaggregated LSM Write Performance via Three-Layer Offloading
  • 作者: Qi Lin, Gangqi Huang, Te Guo, Chang Guo, Viraj Thakkar, Zichen Zhu, Jianguo Wang, Zhichao Cao(Purdue/Ant Group 等)
  • 发表: SIGMOD 2026(Full Research Paper)

核心贡献: O³-LSM 是对分解式(Disaggregated)LSM-KVS 架构的重大改进。传统分解式 LSM 仅将 compaction 卸载到远程内存(RDMA-based Disaggregated Memory),O³-LSM 进一步引入 memtable 卸载flush 卸载,形成三层卸载架构:

层级 卸载内容 解决的问题
Layer 1(已有) Compaction Offloading 减少存储节点计算压力
Layer 2(新增) Memtable Offloading 写停顿期间 Memtable 检索延迟(占总时间 18.7%)
Layer 3(新增) Flush Offloading Memtable→SSTable 过程中的额外回传开销(占 7.8%)

具体性能数据: - 纯写工作负载:吞吐量提升最高 5.2 倍,P99 延迟降低最高 22% - 混合负载(50% 读/50% 写):吞吐量提升最高 3 倍,P99 延迟降低最高 76% - Syscall 调用次数减少 99%+, compaction 执行时间缩短约 50%

关键技术: - 基于 RDMA 的共享分解式内存(Disaggregated Memory) - Key-offset cache + Cache-Enhanced Read Delegation(直接读取远端 DM 而不回传 CN) - DMO-MT(DM-Optimized Memtable):将 Memtable 元数据压缩至 572 字节的 flush-metadata package - Bloom Filter 卸载:利用 RDMA 单边读取远端布隆过滤器

工程意义: 对云原生数据库(PolarDB、TiDB Cloud、Neon 等)利用 RDMA 优化写入路径有直接参考价值。是 2026 年 LSM-tree 领域最重要工程成果之一。

可信度: 极高——SIGMOD 2026 全文,代码/评测均公开。


2. RESYSTANCE — eBPF 加速 LSM-tree Compaction ⭐⭐⭐⭐⭐

数据库 · ICDE 2026 全文录用

  • 论文: arXiv:2603.05162RESYSTANCE: Unleashing Hidden Performance of Compaction in LSM-trees via eBPF
  • 作者: Hongsu Byun, Seungjae Lee, Honghyeon Yoo, Myoungjoon Kim, Sungyong Park(韩国研究机构)
  • 发表: ICDE 2026

核心贡献: 将 eBPF + io_uring 引入 LSM-tree compaction,无需修改 RocksDB 结构和算法,将 compaction 的核心 I/O 例程迁移至内核态,消除用户态/内核态边界穿越的系统调用开销。

具体性能数据: - 单 compaction 线程:吞吐量比 RocksDB 高 75% - oltp_read_write 混合负载:22% 吞吐量提升 - Syscall 调用次数减少 99%+ - Compaction 执行时间缩短约 50% - P99 写延迟显著改善

技术细节: - eBPF 的挑战:指令数限制、循环结构限制、verifier 约束(难以在 eBPF 内实现 merge-sort 或复杂 iterator) - RESYSTANCE-k 版本:绕过 eBPF verifier 限制,直接在内核模块执行(略微优于纯 eBPF 版本) - 与 O³-LSM 正交:两者可互补(O³-LSM 解决远程分解式内存访问,RESYSTANCE 解决本地 syscall 开销)

工程意义: 对运行在标准 Linux 内核上的 RocksDB/LevelDB 系数据库有直接工程价值,只需在内核层面集成,无需修改数据库代码本身。

可信度: 高——ICDE 2026 论文,有具体性能对比数据。


3. CockroachDB · Agentic AI Architecture 博客系列 ⭐⭐⭐⭐

后端 · 数据库 × AI Agent 交叉领域

CockroachDB 团队在 2026 年 5-6 月密集发布了一系列 AI Agent 数据库架构文章,构成当前最完整的"数据库如何服务 AI Agent 生产"工程参考:

3a. Agentic AI Architecture: How CockroachDB Supports Memory, Context, and Control(2026-06-11)⭐⭐⭐⭐⭐

核心观点: - Agent 需要持久记忆(Durable Memory)而非仅靠 prompt context - 向量搜索帮助 Agent 复用先前工作、减少重复计算 - AI 可观测性使 Agent 的成本、延迟、context 使用量可量化

架构设计要点:

Agent Application Layer
     ↓
Vector Search(上下文复用)
     ↓
Durable Memory Store(CockroachDB 行存 + 向量列)
     ↓
Control Plane(事务隔离、ACID 保证)
     ↓
Underlying Data(企业级关系数据)

3b. What Breaks When Agentic AI Reaches Production?(2026-06-04)⭐⭐⭐⭐

核心观点: - 大多数团队能做出" impressive"的 Agent,但不发生生产事故地交付的极少 - 关键失败点:上下文状态损坏、Token 预算失控、多 Agent 协调的一致性问题

3c. The Thundering Herd Problem in Agentic AI(2026-06-19)⭐⭐⭐⭐

核心观点: - 传统 thundering herd 问题是外部触发(多客户端同时请求) - Agentic AI 的 thundering herd 是内部触发(多个 Agent 同时读取同一数据源,刷新上下文) - 解决方案:向量搜索去重、请求批处理、分布式记忆缓存

3d. CockroachDB + Memori Labs: Keeping Agent Context Alive(2026-05-12)⭐⭐⭐⭐

核心观点: - Agent "学习"不能是 best-effort 功能,必须是持久化、可治理、高可用的 - 分布式存储确保 Agent 记忆的全局可用性(多 region 容灾) - Context 检索代替完整历史回传,降低 Token 成本

综合评价: CockroachDB 团队是目前数据库厂商中对 AI Agent 生产理解最深入的。其博客系列提供了"数据库视角的 Agent 架构",而非空谈概念,每篇都有具体场景、失败模式和解决方案。对构建生产级 Agent 数据层有直接参考价值。

可信度: 高——CockroachDB 工程团队,有真实客户案例支撑。


4. LLM Agent 通信协议技术分类学 ⭐⭐⭐⭐

后端 · Multi-Agent 系统基础设施

4a. A Technical Taxonomy of LLM Agent Communication Protocols(arXiv:2606.19135,cs.MA,2026-06)⭐⭐⭐⭐

来源: arXiv cs.MA,Jun 2026 核心贡献: 对 LLM Agent 通信协议的系统性分类,聚焦于连接 LLM Agent 与其他 Agent/系统/工具/API 的协议设计。

分类框架: - 协议目的:连接 LLM Agent 到其他 Agent 或外部信息系统 - 应用层视角(而非具体技术实现细节) - 覆盖 9 个现有协议实现

工程意义: 在 MCP、A2A、ACP 协议竞争加剧的当下,一个清晰的分类框架有助于理解各协议的设计取舍和适用场景。

4b. Beyond Tokens: A Unified Framework for Latent Communication in LLM-based Multi-Agent Systems(arXiv:2606.05711,2026-06)⭐⭐⭐⭐

核心贡献: - 3 轴分解框架:WHAT(通信信息类型)× WHICH(发送者-接收者对齐)× HOW(信息融合策略) - 分析了 18 个 2024-2026 年间的方法(包括 RelayCaching、Agent Memory、Edge LLM Handover、BIGMAS 等)

工程意义: 为 Multi-Agent 系统设计中的 KV Cache 复用、跨 Agent 状态传递、延迟通信优化提供了统一分析框架。

可信度: 高(arXiv 学术论文)。


5. CNCF Annual Cloud Native Survey 2026 ⭐⭐⭐⭐

Cloud-Native · 行业数据

  • 来源: CNCF Annual Survey,2026-01-20 发布
  • 核心数据:
  • 98% 的组织以某种形式使用云原生技术
  • 82% 的容器用户已在生产环境运行 Kubernetes
  • 66% 的生成式 AI 推理工作负载运行在 Kubernetes 上
  • 组织文化与团队协同(47% 引用率)首次超越技术障碍,成为云原生采用的首要阻力

关键趋势: - Kubernetes 已从"容器编排工具"演变为 AI 原生时代的"操作系统" - OpenTelemetry 快速崛起:跨分布式/AI 驱动系统的统一遥测成为刚性需求 - 平台一致性比原始工具能力更重要——企业级采用的核心挑战是标准化而非技术创新

可信度: 高(CNCF 官方,基于跨行业公开数据)。


6. KubeCon EU 2026 关键更新 ⭐⭐⭐⭐

Cloud-Native · 基础设施风向标

  • 时间: 2026年3月23-26日,阿姆斯特丹
  • 主题: AI + Kubernetes 基础设施融合

关键公告(Microsoft/Brendan Burns): - GPU 工作负载成为 Kubernetes 一等公民(first-class citizen) - 开放标准硬件资源管理调度取得进展 - 多集群运营、开源 AI 基础设施投资加码

重大变化 — INGRESS NGINX 即将停更: - 社区版 INGRESS NGINX Controller 2026年3月正式停更 - 迁移至 Gateway API 从"可选"升级为安全紧急项 - KubeVirt 项目爆发:允许虚拟机直接在 Kubernetes 集群内运行(传统虚拟化成本压力驱动)

SiliconANGLE 点评:

"技术已成熟,但人的部分更难。CNCF 研究显示组织文化与团队协同现在是云原生采用的首要障碍(47%),技术阻力退居其后,说明工具成熟速度快于部署它们的组织。"

可信度: 高(CNCF 官方 + 多个独立技术媒体交叉验证)。


7. arXiv 2026-06 数据库最新条目(精选)⭐⭐⭐

7a. Multiversion Concurrency Control for Multiversion B-Trees(arXiv:2606.09133)⭐⭐⭐⭐

  • MVBT(多版本 B 树)的并发控制协议
  • 对数据库并发控制研究有参考价值

7b. Cost-Aware Optimization for Agentic Query Execution(arXiv:2606.03152)⭐⭐⭐⭐

  • 数据库 × Agent 交叉:让 LLM Agent 执行 SQL 查询时的成本感知优化
  • 将查询规划 cost model 引入 Agent 数据库交互

7c. Architectural Evolution and Selection Framework for Database Systems in AI-Ready Data Platforms(arXiv:2606.08317)⭐⭐⭐

  • AI-Ready 数据平台中的数据库系统架构演进与选型框架
  • 适合作为数据库选型决策参考

📊 本次汇总

优先级 条目 类型 核心价值
⭐⭐⭐⭐⭐ O³-LSM(SIGMOD 2026) arXiv 论文 分解式 LSM 三层卸载,P99 延迟降 22-76%
⭐⭐⭐⭐⭐ RESYSTANCE(ICDE 2026) arXiv 论文 eBPF 加速 RocksDB compaction,吞吐量+75%
⭐⭐⭐⭐⭐ CockroachDB Agentic AI 系列 技术博客 数据库×Agent生产架构全景,4篇连发
⭐⭐⭐⭐ CNCF Survey 2026 行业报告 K8s 82% 生产率,AI推理 66% 在 K8s 上
⭐⭐⭐⭐ LLM Agent 通信协议分类学 arXiv 论文 MCP/A2A/ACP 竞争格局的分类框架
⭐⭐⭐⭐ KubeCon EU 2026 会议动态 INGRESS NGINX 停更,Gateway API 迁移安全紧急
⭐⭐⭐ MVBT 并发控制(arXiv 2606.09133) arXiv 论文 多版本 B 树并发控制协议研究
⭐⭐⭐ Agentic Query Cost Optimization(arXiv 2606.03152) arXiv 论文 LLM Agent 数据库查询 cost-aware 优化

🏷️ 分类标签

#Database #LSM-Tree #SIGMOD2026 #ICDE2026 #Disaggregated-Storage
#eBPF #io_uring #CockroachDB #Agentic-AI #Agentic-Database
#Cloud-Native #Kubernetes #CNCF #KubeCon #Gateway-API
#Multi-Agent #LLM-Agent-Protocol #RAG #Vector-Search
#Infrastructure #RDMA #Storage-Engine

📁 建议写入路径

本次草稿路径: /shared/research-kb/inbox/jay/2026-06-22-1105-morning-database-backend-cloudnative.md


✅ 后续行动

  1. O³-LSM:精读论文全文(arXiv:2603.05439),关注 Purdue 团队是否有开源实现,结合 TiDB/PolarDB 架构讨论
  2. RESYSTANCE:核验是否有 GitHub 代码(搜索 RESYSTANCE RocksDB eBPF),评估在内核 5.x/6.x 环境的兼容性
  3. CockroachDB Agentic AI 系列:建议作为知识库「Agent 工程」主题页的数据库层参考,该系列是当前最完整的生产级 Agent 数据架构文档
  4. LLM Agent 通信协议分类学:纳入知识库「Agent 协议层」主题页,与 MCP/A2A/ACP 已有内容形成体系
  5. Gateway API 迁移:提醒 DevOps 方向同事,INGRESS NGINX 停更倒计时(2026-03),迁移计划需提前制定
  6. KubeVirt 爆发:关注 KubeVirt 在 AI 推理/模型服务场景的用例扩展(将 VM 工作负载整合到 K8s 集群)

草稿整理:Jay · 2026-06-22 · 共收录 8 个高价值条目 · arXiv 占 5 个 · 博客/行业占 3 个