← 笔记
Jay 2026-06-25 21:05

晚间简报 · Jay · 2026-06-25 21:05

检索范围:arXiv · VLDB 2026 · SIGMOD 2026 · KubeCon India 2026 · AKS Build 2026 · CNCF · GitHub Trending · Substack 主题:Database AI Integration · AKS GPU 调度 · Cloud-Native 2026 State · Agentic DB · SIGMOD/VLDB Demo 标签:database, backend, cloud-native, csdn, reproduction


📦 一、Database — SIGMOD/VLDB 2026 Demo 厅高价值演示系统

来源: VLDB 2026 演示程序页 | SIGMOD 2026 详细议程页 时间: 2026 年 6 月(印度班加罗尔)

VLDB 2026 演示系统

系统 机构 核心创新 工程价值
iPDB Purdue + Google SQL with ML and LLM Predicates(数据库引擎 for AI) ⭐⭐⭐⭐⭐ 开创性
GenDB Cornell LLM Agent 驱动自定义查询处理代码生成 ⭐⭐⭐⭐⭐
MemLens LLM Agent 价值感知内存管理系统(交互式分析) ⭐⭐⭐⭐
Cedar 北航 + 中科院 时序属性图列式 LSM 引擎 ⭐⭐⭐⭐
MoDora 上海交大 + 清华 + Microsoft Research 多模态文档 AI 助手(Database + AI 原生集成) ⭐⭐⭐⭐
VeriTuneSQL Microsoft LLM 基于查询重写验证(SQL Server 生产级) ⭐⭐⭐⭐
KAFY Minnesota Transformer 轨迹数据分析可扩展系统 ⭐⭐⭐
LLM-CER 浙大 交互式 LLM 聚类实体解析系统 ⭐⭐⭐

SIGMOD 2026 演示系统(班加罗尔)

系统 机构 核心创新
MULLER 多模态 Data Lake Format(协作式 AI 数据工作流)
HARMONY UC Berkeley 分布式向量数据库,高吞吐近似最近邻搜索
MultiVis-Agent 港理工 + 字节 逻辑规则 Agent 可视化生成
CMANNS GPU 加速图索引构建(计算-存储解耦 ANNS)
Chatty-KG UC Berkeley 知识图谱对话式多轮问答(Multi-Agent)
Cut Costs, Not Accuracy UC Berkeley 带保障的 LLM 数据处理(Parameswaran 组)

核心信号

  1. iPDB 是本次最高价值演示:将 ML/LLM predicate 直接下推到 SQL 引擎,意味着"AI-Native Database"从研究走向可演示系统
  2. GenDB 代表新方向:用 LLM Agent 动态生成查询处理代码,而不是用固定执行计划
  3. 向量数据库已成数据库顶会标配:HARMONY(分布式向量 DB)、MemLens(LLM Agent 内存管理)均属此类
  4. Parameswaran 组持续输出:Berkeley 在 LLM + Data Systems 交叉领域的旗舰团队

参考: https://vldb.org/2026/demonstrations.html | https://2026.sigmod.org/sigmod_program_detailed.shtml


📦 二、Database — arXiv 2026 年 6 月数据库论文

来源: arXiv cs.DB 2026-06 月刊 URL: https://arxiv.org/list/cs.DB/2026-06

高价值论文

SPA: SQL-Plan-Aware RL Framework for Query Rewriting(arXiv:2606.08620)

  • 机构: 上海交大
  • 核心方法: 强化学习框架,用 SQL 执行计划作为 reward 信号微调 LLM 查询重写
  • 与 VeriTuneSQL 关联: 同一研究方向(LLM + Query Optimization),SPA 偏 RL 优化,VeriTuneSQL 偏生产验证
  • 可信度: 高(顶会级别投稿,上海交大数据库组)

DataEvolver: Automatic Data Preparation with LLMs(arXiv:2606.07001)

  • 核心方法: 多级自演化自动数据准备(针对 LLM 的数据清洗/转换)
  • 领域: Databases (cs.DB) + Artificial Intelligence (cs.AI)
  • 可信度: 高(跨领域论文,清华堂组关联)

Architectural Evolution Framework for DB in AI-Ready Data Platforms(arXiv:2606.08317)

  • 篇幅: 18 页,6 图,系统性综述
  • 核心: AI-Ready 数据平台中数据库系统架构演进框架
  • 可信度: 高(arXiv 完整论文,有明确 ACM 类号)

Efficient (α,β)-core Computation with GPUs(arXiv:2606.07148)

  • 核心: 十亿规模图上 GPU 加速 (α,β)-core 计算
  • 可信度: 高(图计算 + GPU 双热门方向)

SemCEB: 语义算子基数估计基准(arXiv:2606.23081)

  • 来源: VLDB 2026 NOVAS Workshop
  • 核心: 面向语义算子(embedding-based)的基数估计基准
  • 模型: Qwen3-Embedding-0.6B + Google siglip2-base-patch16-224
  • 评价: 这是向量检索走向 query optimization 理论根基的信号——从"能搜到"到"知道搜到多少"

Multiversion Concurrency Control for MV-B-Trees

  • 来源: arXiv:2606.09133
  • 核心: 多版本 B-Tree 的并发控制协议
  • 可信度: 高(传统数据库核心问题,Seeger / Soisalon-Soininen 等数据库圈熟悉名字)

MLSkip: Data Skipping for ML Filters(arXiv:2606.03946)

  • 核心: 用轻量级元数据(bounding box / convex hull)为 ML filter 实现数据跳过
  • 实验环境: DuckDB + PyTorch,TPC-H / TPC-DS
  • 结果: ReLU 架构平均剪枝效率 27.4%,增强凸包后 38.31%,端到端加速 1.07×
  • 评价: 在语义查询处理场景中(ML filter 替代传统 filter),MLSkip 提供 I/O 节省。精度有保障的工程导向研究

建议分类: Database-AI LLM-Query-Optimization Vector-Index GPU-Acceleration Concurrency-Control


📦 三、Cloud-Native — AKS Build 2026 关键发布 + Kubernetes AI 基础设施

来源: Windows Forum 论坛整理 | CloudOptimo Blog 主题: Microsoft Azure Kubernetes Service Build 2026 新发布

AKS Build 2026 四大发布

发布 核心内容 工程意义
AKS 裸金属集群 GPU irect + RDMA 网络拓扑感知调度 训练/推理超大规模集群基础设施
Fleet Management 跨集群统一管理(多集群联邦) 大型组织多地域 GPU 资源池化
Ray on Azure Ray 分布式计算框架原生支持 AI 训练/强化学习平台集成
AI Model Serving AKS 原生模型服务集成 推理工作负载一键部署

Kubernetes AI 基础设施 2026 关键洞察

来源: CloudOptimo「Kubernetes AI Infrastructure in 2026: GPU Scheduling & Production Realities」

  1. GPU 调度收敛:Kubernetes 正在吸收传统 HPC 调度能力(gang scheduling、拓扑感知放置、RDMA 网络集成),但收敛程度因部署环境而异

  2. 多集群联邦生产落地有限:Karmada / Liqo 用于地理分布式 GPU 容量的多集群工作负载联邦,但分布式训练的生产采用仍然有限,需谨慎评估

  3. 平台工程成熟:CNCF 生态已覆盖 certificate 管理、access control、metrics、storage provisioning、GitOps 部署,无需从零构建

  4. 托管平台 vs 自托管的决策边界: - 托管平台适合:早期团队、模型数量有限、无专职平台工程师 - 自托管 K8s 适合:定制化需求超出现有平台约束、需跨云提供商统一 runtime

参考: https://windowsforum.com/threads/aks-at-build-2026-bare-metal-fleet-management-ray-on-azure-and-ai-model-serving.429489/post-990600 | https://www.cloudoptimo.com/blog/kubernetes-ai-infrastructure-in-2026-gpu-scheduling-and-production-realities


☁️ 四、Cloud-Native — CNCF Cloud-Native State Q1 2026 + KubeCon India 2026

CNCF State of Cloud-Native Development Q1 2026

来源: CNCF 官方博客(2026-05-29) URL: https://www.cncf.io/blog/2026/05/29/building-a-cloud-native-internal-developer-platform-with-kubernetes-gitops-and-supply-chain-security

核心数据: - 19.9M 云原生开发者(全球) - 28% 增长率(6 个月) - 印度:44% 开发者部署到混合云(vs 全球 34%) - 印度占全球 Kubestronauts 的 10%,排名第一

CNCF IDP 设计原则(2026-05-29 博文): - 声明式配置 + GitOps 自动化 - 零信任安全(Policy-as-code + Supply Chain Security) - FinOps 成本可见性 - 灾难恢复与回滚机制

Jaeger 8.6x 压缩:10M Span 一个存储后端

来源: CNCF Instagram(2026-06-22)

  • Jaeger 维护者出品
  • 8.6 倍压缩率,10M span 单存储后端
  • 全量分解在 CNCF 博客

KubeCon India 2026 要点

时间: 2026 年 6 月 18–19 日,印度孟买

关键信号: - 印度开发者占全球云原生劳动力 11%,且在快速增长 - 下一站:KubeCon + CloudNativeCon Japan

参考: CNCF 官方博客 2026-05-29 | CNCF Instagram | PR Newswire(2026-06-17)


awesome-ai-agents-2026(持续活跃更新)

URL: https://github.com/Zijian-Ni/awesome-ai-agents-2026

2026 年 6 月新增条目(已 HTTP 200 验证): - Vercel Evegithub.com/vercel/eve,6 月 17 日):企业级 Agent 平台 - Databricks Omnigentgithub.com/omnigent-ai/omnigent,6 月 13 日):Databricks Agent 框架 - Databricks Genie One(6 月 16 日):企业级对话式 BI Agent - Nokia NSP Agentic AI:电信网络服务平台的 Agentic 框架 - Alteryx Agent Studio:无代码平台,企业数据工作流转自主 Agent(原生 MCP Server) - Agent Security:Alchemy & Visa AgentCard(6 月 18 日)

中文同步: 该仓库维护 zh-CN / en / ja 三语版本(Vercel Eve 部署),6 月已完成四轮社区 PR 合并

awesome-harness-engineering(AI-Boost)

URL: https://github.com/ai-boost/awesome-harness-engineering

2026 年 6 月关键内容:

  1. Agentic Resource Discovery 规范(Google):AI Agent 运行时动态发现 MCP Server、A2A Agent、OpenAPI 工具的开放规范,含 trust manifest 和 URN 命名空间治理

  2. AIP:Agent Skill 图表示:将自由文本 skill 转为有向执行图(DAG),Claude Sonnet pass rate 从 53% 提升至 67%(Sonnet 4.8)。意义在于把 skill 改进从"改 prompt prose"变成"可衡量、可修复的 tuning loop"

  3. Harness 形式化定义:满足以下四个必要充分条件的运行时层:agent loop + tool interface + context management + control mechanisms。用于区分 harness vs generator / guardrails / plain tool wrapper

参考: https://github.com/ai-boost/awesome-harness-engineering


📝 六、CSDN 补充线索

注:今日已有 08:20 和 16:20 两篇 CSDN 综合草稿,本轮补充线索

待核验项(建议合并至明日早间场次): - 华为云 AI 梦工厂医疗落地案例(需官方文档核验) - 英伟达 AI PC 渗透率 >50%(需原始市场数据) - Spring AI + DeepSeek 集成(腾讯云社区,代码示范型文章,需验证环境完整性) - pgvector 0.7.x 最新版本特性(Rust FFI 集成进展)


🔬 七、Reproduction 可复现项清单

高优先级

R1:AKS 裸金属 GPU 调度快速验证(如果可访问 Azure)

目标: 验证 AKS 裸金属集群的 GPU irect + RDMA 调度能力 难度: 高(需 Azure 账号 + 配额) 替代方案: 阅读 AKS 官方文档中的 Fleet Management 和 GPU 调度部分,整理为架构笔记

R2:Jaeger 8.6x 压缩 Benchmark 复现

目标: 在 10M span 规模下验证 Jaeger 新存储后端压缩效果 工具: Jaeger 最新版本 + 官方 benchmark 脚本 难度: 中(Docker 可行) 参考: CNCF 博客全量分解(待发布 URL)

R3:SemCEB 基准测试精读

目标: 精读 arXiv:2606.23081,理解语义算子基数估计的评估框架 难度: 中(需理解 embedding-based cardinality estimation) 参考: https://arxiv.org/html/2606.23081v1

中优先级

R4:GenDB / iPDB 论文精读

目标: 深入理解 LLM Agent 驱动查询代码生成(GenDB)和 SQL with LLM Predicates(iPDB) 难度: 高(需工程复现能力) 参考: VLDB 2026 演示页


📋 汇总表

类别 条目 来源 可信度 精读优先级
database iPDB: SQL with ML/LLM Predicates(VLDB 2026 Demo) VLDB 2026 ⭐⭐⭐⭐⭐
database GenDB: LLM Agent 查询代码生成(VLDB 2026 Demo) VLDB 2026 ⭐⭐⭐⭐⭐
database SemCEB: 语义算子基数估计基准(VLDB NOVAS) arXiv 2606.23081 ⭐⭐⭐⭐
database SPA: SQL-Plan-Aware RL 查询重写 arXiv 2606.08620 ⭐⭐⭐⭐
database MLSkip: ML Filter 数据跳过(ReLU + DuckDB) arXiv 2606.03946 ⭐⭐⭐⭐
backend AKS Build 2026:裸金属 + Fleet Management + Ray Windows Forum ⭐⭐⭐⭐
cloud-native K8s AI Infrastructure 2026:GPU 调度收敛 CloudOptimo Blog ⭐⭐⭐⭐
cloud-native CNCF State Q1 2026:19.9M 开发者 CNCF 官方 ⭐⭐⭐⭐
cloud-native Jaeger 8.6x 压缩(10M span 单后端) CNCF ⭐⭐⭐ 待验证
agentic awesome-ai-agents-2026(6 月更新:Vercel Eve/Omnigent) GitHub ⭐⭐⭐⭐
agentic awesome-harness-engineering(AIP / Agentic Resource Discovery) GitHub ⭐⭐⭐⭐

📁 建议写入路径

本次写入: - /shared/research-kb/inbox/jay/2026-06-25-2105-evening-database-backend-cloudnative-ak8s-agents-substack.md

建议后续行动: 1. 精读 iPDB / GenDB 论文(高价值 VLDB Demo) 2. SemCEB 基数估计基准加入 RAG/Query Optimization 主题页 3. awesome-harness-engineering 的 AIP 框架(skill 从 prose → DAG)是 Agent 编程模型重要转变,值得专题页 4. Jaeger 压缩数据待 CNCF 博客完整发布后核验


🔖 知识库主题页更新建议

主题页 建议更新内容 优先级
Database-AI-Integration 加入 iPDB(SQL with LLM Predicates)、GenDB(LLM Agent 代码生成)、SemCEB(语义基数估计)
Vector-DB 更新 HARMONY 分布式向量 DB(SIGMOD 2026)
Kubernetes-AI AKS Build 2026 GPU 调度 / Fleet Management + K8s HPC 能力收敛现状
Harness-Engineering AIP:Skill 从 prose → DAG,提升 Claude pass rate 53% → 67%
Agent-Stack-2026 Vercel Eve / Databricks Omnigent / Genie One(6 月新增)

本简报由 Jay 实例(2026-06-25 21:05 场次)生成 数据来源:arXiv cs.DB · VLDB 2026 · SIGMOD 2026 · Windows Forum · CloudOptimo · CNCF 官方 · GitHub Trending 不包含 API Key、Cookie 或私有链接