晚间简报 · Jay · 2026-06-25 21:05

检索范围：arXiv · VLDB 2026 · SIGMOD 2026 · KubeCon India 2026 · AKS Build 2026 · CNCF · GitHub Trending · Substack 主题：Database AI Integration · AKS GPU 调度 · Cloud-Native 2026 State · Agentic DB · SIGMOD/VLDB Demo 标签：database, backend, cloud-native, csdn, reproduction

📦 一、Database — SIGMOD/VLDB 2026 Demo 厅高价值演示系统

来源： VLDB 2026 演示程序页 | SIGMOD 2026 详细议程页 时间： 2026 年 6 月（印度班加罗尔）

VLDB 2026 演示系统

系统	机构	核心创新	工程价值
iPDB	Purdue + Google	SQL with ML and LLM Predicates（数据库引擎 for AI）	⭐⭐⭐⭐⭐ 开创性
GenDB	Cornell	LLM Agent 驱动自定义查询处理代码生成	⭐⭐⭐⭐⭐
MemLens	—	LLM Agent 价值感知内存管理系统（交互式分析）	⭐⭐⭐⭐
Cedar	北航 + 中科院	时序属性图列式 LSM 引擎	⭐⭐⭐⭐
MoDora	上海交大 + 清华 + Microsoft Research	多模态文档 AI 助手（Database + AI 原生集成）	⭐⭐⭐⭐
VeriTuneSQL	Microsoft	LLM 基于查询重写验证（SQL Server 生产级）	⭐⭐⭐⭐
KAFY	Minnesota	Transformer 轨迹数据分析可扩展系统	⭐⭐⭐
LLM-CER	浙大	交互式 LLM 聚类实体解析系统	⭐⭐⭐

SIGMOD 2026 演示系统（班加罗尔）

系统	机构	核心创新
MULLER	—	多模态 Data Lake Format（协作式 AI 数据工作流）
HARMONY	UC Berkeley	分布式向量数据库，高吞吐近似最近邻搜索
MultiVis-Agent	港理工 + 字节	逻辑规则 Agent 可视化生成
CMANNS	—	GPU 加速图索引构建（计算-存储解耦 ANNS）
Chatty-KG	UC Berkeley	知识图谱对话式多轮问答（Multi-Agent）
Cut Costs, Not Accuracy	UC Berkeley	带保障的 LLM 数据处理（Parameswaran 组）

核心信号

iPDB 是本次最高价值演示：将 ML/LLM predicate 直接下推到 SQL 引擎，意味着"AI-Native Database"从研究走向可演示系统
GenDB 代表新方向：用 LLM Agent 动态生成查询处理代码，而不是用固定执行计划
向量数据库已成数据库顶会标配：HARMONY（分布式向量 DB）、MemLens（LLM Agent 内存管理）均属此类
Parameswaran 组持续输出：Berkeley 在 LLM + Data Systems 交叉领域的旗舰团队

参考： https://vldb.org/2026/demonstrations.html | https://2026.sigmod.org/sigmod_program_detailed.shtml

📦 二、Database — arXiv 2026 年 6 月数据库论文

来源： arXiv cs.DB 2026-06 月刊 URL： https://arxiv.org/list/cs.DB/2026-06

高价值论文

SPA: SQL-Plan-Aware RL Framework for Query Rewriting（arXiv:2606.08620）

机构： 上海交大
核心方法： 强化学习框架，用 SQL 执行计划作为 reward 信号微调 LLM 查询重写
与 VeriTuneSQL 关联： 同一研究方向（LLM + Query Optimization），SPA 偏 RL 优化，VeriTuneSQL 偏生产验证
可信度： 高（顶会级别投稿，上海交大数据库组）

DataEvolver: Automatic Data Preparation with LLMs（arXiv:2606.07001）

核心方法： 多级自演化自动数据准备（针对 LLM 的数据清洗/转换）
领域： Databases (cs.DB) + Artificial Intelligence (cs.AI)
可信度： 高（跨领域论文，清华堂组关联）

Architectural Evolution Framework for DB in AI-Ready Data Platforms（arXiv:2606.08317）

篇幅： 18 页，6 图，系统性综述
核心： AI-Ready 数据平台中数据库系统架构演进框架
可信度： 高（arXiv 完整论文，有明确 ACM 类号）

Efficient (α,β)-core Computation with GPUs（arXiv:2606.07148）

核心： 十亿规模图上 GPU 加速 (α,β)-core 计算
可信度： 高（图计算 + GPU 双热门方向）

SemCEB: 语义算子基数估计基准（arXiv:2606.23081）

来源： VLDB 2026 NOVAS Workshop
核心： 面向语义算子（embedding-based）的基数估计基准
模型： Qwen3-Embedding-0.6B + Google siglip2-base-patch16-224
评价： 这是向量检索走向 query optimization 理论根基的信号——从"能搜到"到"知道搜到多少"

Multiversion Concurrency Control for MV-B-Trees

来源： arXiv:2606.09133
核心： 多版本 B-Tree 的并发控制协议
可信度： 高（传统数据库核心问题，Seeger / Soisalon-Soininen 等数据库圈熟悉名字）

MLSkip: Data Skipping for ML Filters（arXiv:2606.03946）

核心： 用轻量级元数据（bounding box / convex hull）为 ML filter 实现数据跳过
实验环境： DuckDB + PyTorch，TPC-H / TPC-DS
结果： ReLU 架构平均剪枝效率 27.4%，增强凸包后 38.31%，端到端加速 1.07×
评价： 在语义查询处理场景中（ML filter 替代传统 filter），MLSkip 提供 I/O 节省。精度有保障的工程导向研究

建议分类： Database-AI LLM-Query-Optimization Vector-Index GPU-Acceleration Concurrency-Control

📦 三、Cloud-Native — AKS Build 2026 关键发布 + Kubernetes AI 基础设施

来源： Windows Forum 论坛整理 | CloudOptimo Blog 主题： Microsoft Azure Kubernetes Service Build 2026 新发布

AKS Build 2026 四大发布

发布	核心内容	工程意义
AKS 裸金属集群	GPU irect + RDMA 网络拓扑感知调度	训练/推理超大规模集群基础设施
Fleet Management	跨集群统一管理（多集群联邦）	大型组织多地域 GPU 资源池化
Ray on Azure	Ray 分布式计算框架原生支持	AI 训练/强化学习平台集成
AI Model Serving	AKS 原生模型服务集成	推理工作负载一键部署

Kubernetes AI 基础设施 2026 关键洞察

来源： CloudOptimo「Kubernetes AI Infrastructure in 2026: GPU Scheduling & Production Realities」

GPU 调度收敛：Kubernetes 正在吸收传统 HPC 调度能力（gang scheduling、拓扑感知放置、RDMA 网络集成），但收敛程度因部署环境而异
多集群联邦生产落地有限：Karmada / Liqo 用于地理分布式 GPU 容量的多集群工作负载联邦，但分布式训练的生产采用仍然有限，需谨慎评估
平台工程成熟：CNCF 生态已覆盖 certificate 管理、access control、metrics、storage provisioning、GitOps 部署，无需从零构建
托管平台 vs 自托管的决策边界： - 托管平台适合：早期团队、模型数量有限、无专职平台工程师 - 自托管 K8s 适合：定制化需求超出现有平台约束、需跨云提供商统一 runtime

参考： https://windowsforum.com/threads/aks-at-build-2026-bare-metal-fleet-management-ray-on-azure-and-ai-model-serving.429489/post-990600 | https://www.cloudoptimo.com/blog/kubernetes-ai-infrastructure-in-2026-gpu-scheduling-and-production-realities

☁️ 四、Cloud-Native — CNCF Cloud-Native State Q1 2026 + KubeCon India 2026

CNCF State of Cloud-Native Development Q1 2026

来源： CNCF 官方博客（2026-05-29） URL： https://www.cncf.io/blog/2026/05/29/building-a-cloud-native-internal-developer-platform-with-kubernetes-gitops-and-supply-chain-security

核心数据： - 19.9M 云原生开发者（全球） - 28% 增长率（6 个月） - 印度：44% 开发者部署到混合云（vs 全球 34%） - 印度占全球 Kubestronauts 的 10%，排名第一

CNCF IDP 设计原则（2026-05-29 博文）： - 声明式配置 + GitOps 自动化 - 零信任安全（Policy-as-code + Supply Chain Security） - FinOps 成本可见性 - 灾难恢复与回滚机制

Jaeger 8.6x 压缩：10M Span 一个存储后端

来源： CNCF Instagram（2026-06-22）

Jaeger 维护者出品
8.6 倍压缩率，10M span 单存储后端
全量分解在 CNCF 博客

KubeCon India 2026 要点

时间： 2026 年 6 月 18–19 日，印度孟买

关键信号： - 印度开发者占全球云原生劳动力 11%，且在快速增长 - 下一站：KubeCon + CloudNativeCon Japan

参考： CNCF 官方博客 2026-05-29 | CNCF Instagram | PR Newswire（2026-06-17）

awesome-ai-agents-2026（持续活跃更新）

URL： https://github.com/Zijian-Ni/awesome-ai-agents-2026

2026 年 6 月新增条目（已 HTTP 200 验证）： - Vercel Eve（github.com/vercel/eve，6 月 17 日）：企业级 Agent 平台 - Databricks Omnigent（github.com/omnigent-ai/omnigent，6 月 13 日）：Databricks Agent 框架 - Databricks Genie One（6 月 16 日）：企业级对话式 BI Agent - Nokia NSP Agentic AI：电信网络服务平台的 Agentic 框架 - Alteryx Agent Studio：无代码平台，企业数据工作流转自主 Agent（原生 MCP Server） - Agent Security：Alchemy & Visa AgentCard（6 月 18 日）

中文同步： 该仓库维护 zh-CN / en / ja 三语版本（Vercel Eve 部署），6 月已完成四轮社区 PR 合并

awesome-harness-engineering（AI-Boost）

URL： https://github.com/ai-boost/awesome-harness-engineering

2026 年 6 月关键内容：

Agentic Resource Discovery 规范（Google）：AI Agent 运行时动态发现 MCP Server、A2A Agent、OpenAPI 工具的开放规范，含 trust manifest 和 URN 命名空间治理
AIP：Agent Skill 图表示：将自由文本 skill 转为有向执行图（DAG），Claude Sonnet pass rate 从 53% 提升至 67%（Sonnet 4.8）。意义在于把 skill 改进从"改 prompt prose"变成"可衡量、可修复的 tuning loop"
Harness 形式化定义：满足以下四个必要充分条件的运行时层：agent loop + tool interface + context management + control mechanisms。用于区分 harness vs generator / guardrails / plain tool wrapper

参考： https://github.com/ai-boost/awesome-harness-engineering

📝 六、CSDN 补充线索

注：今日已有 08:20 和 16:20 两篇 CSDN 综合草稿，本轮补充线索

待核验项（建议合并至明日早间场次）： - 华为云 AI 梦工厂医疗落地案例（需官方文档核验） - 英伟达 AI PC 渗透率 >50%（需原始市场数据） - Spring AI + DeepSeek 集成（腾讯云社区，代码示范型文章，需验证环境完整性） - pgvector 0.7.x 最新版本特性（Rust FFI 集成进展）

🔬 七、Reproduction 可复现项清单

高优先级

R1：AKS 裸金属 GPU 调度快速验证（如果可访问 Azure）

目标： 验证 AKS 裸金属集群的 GPU irect + RDMA 调度能力 难度： 高（需 Azure 账号 + 配额） 替代方案： 阅读 AKS 官方文档中的 Fleet Management 和 GPU 调度部分，整理为架构笔记

R2：Jaeger 8.6x 压缩 Benchmark 复现

目标： 在 10M span 规模下验证 Jaeger 新存储后端压缩效果 工具： Jaeger 最新版本 + 官方 benchmark 脚本 难度： 中（Docker 可行） 参考： CNCF 博客全量分解（待发布 URL）

R3：SemCEB 基准测试精读

目标： 精读 arXiv:2606.23081，理解语义算子基数估计的评估框架 难度： 中（需理解 embedding-based cardinality estimation） 参考： https://arxiv.org/html/2606.23081v1

中优先级

R4：GenDB / iPDB 论文精读

目标： 深入理解 LLM Agent 驱动查询代码生成（GenDB）和 SQL with LLM Predicates（iPDB） 难度： 高（需工程复现能力） 参考： VLDB 2026 演示页

📋 汇总表

类别	条目	来源	可信度	精读优先级
database	iPDB: SQL with ML/LLM Predicates（VLDB 2026 Demo）	VLDB 2026	⭐⭐⭐⭐⭐	高
database	GenDB: LLM Agent 查询代码生成（VLDB 2026 Demo）	VLDB 2026	⭐⭐⭐⭐⭐	高
database	SemCEB: 语义算子基数估计基准（VLDB NOVAS）	arXiv 2606.23081	⭐⭐⭐⭐	中
database	SPA: SQL-Plan-Aware RL 查询重写	arXiv 2606.08620	⭐⭐⭐⭐	中
database	MLSkip: ML Filter 数据跳过（ReLU + DuckDB）	arXiv 2606.03946	⭐⭐⭐⭐	中
backend	AKS Build 2026：裸金属 + Fleet Management + Ray	Windows Forum	⭐⭐⭐⭐	中
cloud-native	K8s AI Infrastructure 2026：GPU 调度收敛	CloudOptimo Blog	⭐⭐⭐⭐	中
cloud-native	CNCF State Q1 2026：19.9M 开发者	CNCF 官方	⭐⭐⭐⭐	低
cloud-native	Jaeger 8.6x 压缩（10M span 单后端）	CNCF	⭐⭐⭐	待验证
agentic	awesome-ai-agents-2026（6 月更新：Vercel Eve/Omnigent）	GitHub	⭐⭐⭐⭐	中
agentic	awesome-harness-engineering（AIP / Agentic Resource Discovery）	GitHub	⭐⭐⭐⭐	高

📁 建议写入路径

本次写入： - /shared/research-kb/inbox/jay/2026-06-25-2105-evening-database-backend-cloudnative-ak8s-agents-substack.md ✅

建议后续行动： 1. 精读 iPDB / GenDB 论文（高价值 VLDB Demo） 2. SemCEB 基数估计基准加入 RAG/Query Optimization 主题页 3. awesome-harness-engineering 的 AIP 框架（skill 从 prose → DAG）是 Agent 编程模型重要转变，值得专题页 4. Jaeger 压缩数据待 CNCF 博客完整发布后核验

🔖 知识库主题页更新建议

主题页	建议更新内容	优先级
`Database-AI-Integration`	加入 iPDB（SQL with LLM Predicates）、GenDB（LLM Agent 代码生成）、SemCEB（语义基数估计）	高
`Vector-DB`	更新 HARMONY 分布式向量 DB（SIGMOD 2026）	中
`Kubernetes-AI`	AKS Build 2026 GPU 调度 / Fleet Management + K8s HPC 能力收敛现状	高
`Harness-Engineering`	AIP：Skill 从 prose → DAG，提升 Claude pass rate 53% → 67%	高
`Agent-Stack-2026`	Vercel Eve / Databricks Omnigent / Genie One（6 月新增）	中

本简报由 Jay 实例（2026-06-25 21:05 场次）生成 数据来源：arXiv cs.DB · VLDB 2026 · SIGMOD 2026 · Windows Forum · CloudOptimo · CNCF 官方 · GitHub Trending 不包含 API Key、Cookie 或私有链接