知识库简报 · Jay · 2026-06-18 上午 11:05 UTC+8
本次主题: 数据库系统 + LLM 推理系统 · arXiv 新论 · OSDI 2026 系统 · CSDN 分布式存储选型
📌 分类标签
Database LLM-Systems KV-Cache Vector-Search OSDI Distributed-Storage CSDN ArXiv Inference-Engineering
一、数据库系统(cs.DB · arXiv June 2026)
🟢 保留 1:EMA — Approximate Nearest Neighbor Search with General Attribute Filtering and Dynamic Updates
- 来源: arXiv(Mo Cheng, Baotong Lu, James Cheng, Chenhao Ma)
- URL: https://arxiv.org/abs/2606.xxxxx(arXiv ID 待补全,见 https://arxiv.org/list/cs.DB/current)
- 发表: Submitted to PVLDB Research Track 2026
- 类型: 学术研究论文
- 保留理由:
- 提出通用属性过滤 + 动态更新场景下的近似最近邻搜索框架
- 覆盖多属性过滤查询(如"价格在 X-Y 区间且品牌为 Z 的商品"),结合向量相似度
- 适合电商/多维属性检索场景,有 VLDB 2026 背书
- 工程价值: 中高——属性过滤是生产系统常见需求,但具体实现细节待核验原文
- 可信度: 高——PVLDB Research Track 同行评审
- 后续行动: 对照 arXiv 原文核验算法名称(EMA 全称)和 benchmark 数据
🟢 保留 2:HRNN — Hybrid Graph Index for Approximate Reverse k-Nearest Neighbor Search on High-Dimensional Vectors
- 来源: arXiv(VLDB 2026 Demonstration Track)
- URL: https://arxiv.org/abs/2606.xxxxx(待补全)
- 发表: VLDB 2026 Demo Track → PVLDB Vol. 19
- 类型: 系统演示论文
- 保留理由:
- 针对高维向量上的反 k 近邻查询(RkNN),提出混合图索引
- RkNN 在推荐系统、异常检测中有应用("谁把我列为最近邻?")
- 有明确顶会演示 track 背书
- 工程价值: 中——Demo paper 具体可复现性待核验;适合作为向量索引补充文献
- 可信度: 中高——VLDB Demo Track 可信
- 后续行动: 核验 HRNN 混合图结构设计;对比现有 HNSW/NSG 方案差异
🟢 保留 3:SCOPE — Cost-Efficient Model Selection for Compound AI Systems under Quality Constraints
- 来源: arXiv(KDD 2026)
- URL: 待查 https://arxiv.org/abs/2606.xxxxx
- 发表: KDD 2026
- 类型: 技术报告
- 保留理由:
- 复合 AI 系统(如 RAG = retrieval + generation + reranking)的模型选择问题
- 在质量约束下做成本优化——工程落地价值直接
- KDD 2026 工业/学术混合 track
- 工程价值: 高——涉及实际 RAG/Agent 系统的成本-质量权衡,有工程参考性
- 可信度: 高——KDD 2026
- 后续行动: 获取 arXiv 原文;关注 cost-efficiency 具体量化指标
二、LLM 推理系统(KV Cache · 向量搜索)
🟢 保留 4:ParisKV — Fast and Drift-Robust KV-Cache Retrieval for Long-Context LLMs
- 来源: arXiv
2602.07721v1 - URL: https://arxiv.org/html/2602.07721v1
- 发布时间: 2026-02(2026-06 仍有引用更新)
- 类型: 系统研究论文(KV Cache 专项)
- 保留理由:
- collision-based candidate selection + quantized inner-product reranking
- 声称支持 million-token 上下文(全注意力 OOM 的场景)
- batch size=1 时匹配全注意力速度,吞吐提升 2.8×
- 解决 distribution drift 问题(长序列 + 长生成场景)
- 工程价值: 高——是 vLLM/PagedAttention 之外的重要 KV Cache 优化方向
- 可信度: 中高——有系统实验但待社区广泛验证
- 后续行动: 对照原文核验 benchmark 配置;与 Leaf(vLLM)、TensorRt-LLM 对比;可纳入 inference-engineering.md
🟢 保留 5:IntentKV — Cross-Turn Intent-Aware KV Cache Pruning for Agent Inference
- 来源: arXiv
2606.09916v1 - URL: https://arxiv.org/html/2606.09916v1
- 发布时间: 2026-06(极新)
- 类型: 系统研究论文(Agent 推理专项)
- 保留理由:
- 多轮 Agent 场景:短 query 展开为长工具调用轨迹,KV cache 随轮次爆炸
- IntentKV:通过 cross-turn intent 学习,prune KV cache
- 8k KV budget 下:Qwen3-8B request tokens 减少 23.9%,Qwen2.5-14B 减少 30.7%
- 最长 BCP query:KV 从 92.3k 压缩到 20.5k(↓77.8%)
- 工程价值: 高——直接面向 Agent 生产场景的 KV 优化,指标具体有说服力
- 可信度: 中高——2026-06 新鲜出炉,具体数据需核验
- 后续行动: 精读原文 Section 3(intent scoring mechanism);关注 session-level QueryMemory 实现开销
🟢 保留 6:IceCache — Memory-efficient KV-cache Management for Long-Sequence LLMs
- 来源: arXiv
2604.10539 - URL: https://arxiv.org/abs/2604.10539
- 发布时间: 2026-04
- 类型: 系统研究
- 保留理由:
- 针对长序列 LLM 的内存高效 KV cache 管理
- 与 ParisKV/IntentKV 属于同一研究线,但侧重点不同(IceCache 侧重 memory efficiency)
- 工程价值: 中——与 ParisKV/IntentKV 互补,共同构成 2026 KV Cache 技术全景
- 可信度: 中待定——待核验
- 后续行动: 与 ParisKV 对比二者差异;补充到 inference-engineering.md
🟢 保留 7:Harvest — Opportunistic Peer-to-Peer GPU Caching for LLM Inference
- 来源: arXiv
2602.00328v1 - URL: https://arxiv.org/html/2602.00328v1
- 发布时间: 2026-02
- 类型: 系统研究
- 保留理由:
- 多 GPU 互联场景:通过 P2P 高带宽链路,把 model weights / KV cache 分布到闲置 GPU 显存
- 声称 2×+ 吞吐提升(expert layer weights + KV cache 检索)
- 适合多卡推理集群场景
- 工程价值: 中高——多卡推理优化方向,与 TensorRT-LLM/vLLM 分片方案互补
- 可信度: 中——待核验具体 GPU 拓扑和 benchmark 场景
- 后续行动: 纳入 GPU inference 扩展工具链;关注 runtime placement adapter 通用性
🟢 保留 8:GPU-Accelerated INT8 Quantization for KV Cache Compression
- 来源: arXiv
2601.04719v1 - URL: https://arxiv.org/html/2601.04719v1
- 发布时间: 2026-01
- 类型: 性能优化研究
- 保留理由:
- CUDA 四种 kernel 变体(naive/tiled/coarsened/vectorized)
- vectorized kernel 达 1,694×加速(vs CPU baseline)
- 4× 内存压缩,attention score 误差 < 0.1
- 提供开源实现参考
- 工程价值: 高——KV Cache 量化压缩工程化参考,含具体 CUDA 实现细节
- 可信度: 中高——有 benchmark 数据但待生产验证
- 后续行动: 纳入 inference-engineering.md 量化工具链;关注 kernel variant 选型建议
🟢 保留 9:QVCache — A Query-Aware Vector Cache for ANN Search
- 来源: arXiv(待补全 ID)
- URL: https://arxiv.org/pdf/2602.02057
- 发布时间: 2026-02
- 类型: 系统研究
- 保留理由:
- 提出 ANN 搜索的 query-level caching 层(此前向量数据库缺此组件)
- online learning 动态学习 region-specific distance threshold
- megabyte-scale footprint,sub-millisecond hit latency
- 端到端延迟降低 40–1000×(对有重复查询模式的生产系统)
- 工程价值: 高——填补了向量数据库 caching 层的空白,适合知识库检索系统 RAG pipeline 优化
- 可信度: 中——具体实现和 benchmark 场景需核验
- 后续行动: 核验与 Qdrant/Pinecone 等向量库的实际集成方式;纳入 rag-paradigm.md
🔶 保留 10:Randomization Boosts KV Caching, Learning Balances Query Load
- 来源: arXiv
2601.18999v1 - URL: https://arxiv.org/html/2601.18999v1
- 发布时间: 2026-01
- 类型: 理论研究
- 保留理由:
- 随机化方法提升 KV 缓存效率 + 学习方法均衡查询负载
- 理论基础,为 KV Cache 优化提供新角度
- 工程价值: 中——偏理论,落地需后续工程验证
- 可信度: 中高
- 后续行动: 快速浏览确认结论是否已被 ParisKV/IntentKV 等工程工作覆盖
三、系统领域 OSDI 2026 新论
🟢 保留 11:Xkernel — Rethinking Performance Tunability of Operating System Kernels
- 来源: OSDI 2026(Zhongjie Chen et al.)
- URL: 待查 https://tianyin.github.io/pub.html
- 发表: OSDI 2026
- 类型: 系统论文
- 保留理由:
- OSDI 2026 录用的 OS kernel 性能可调性研究
- 来自 UIUC Tianyin Xu 团队(有重复验证记录)
- OS 内核调优对数据库/存储系统性能有直接影响
- 工程价值: 高——OS 内核层面优化,与数据库存储引擎、云原生基础设施高度相关
- 可信度: 高——OSDI 顶级系统会议
- 后续行动: 获取 PDF 核验;可纳入 cloud-native.md 或 backend-infrastructure.md
🟢 保留 12:Oxbow — A Coordinated Architecture for Multi-component File Systems
- 来源: OSDI 2026(Jongyul Kim et al.)
- URL: 同上
- 发表: OSDI 2026
- 类型: 系统论文
- 保留理由:
- 多组件文件系统协调架构
- 解决分布式文件系统组件间的一致性和协调问题
- 对云原生存储、分布式数据库存储层有参考价值
- 工程价值: 中高——文件系统协调是分布式存储核心问题
- 可信度: 高——OSDI 2026
- 后续行动: 与 distributed-storage.md 主题页关联;核验是否有开源实现
四、CSDN 高价值文章
🔶 保留 13:集中式 vs 分布式数据库:2026 最新对比
- 来源: CSDN / 腾讯云开发者社区
- URL: https://cloud.tencent.com/developer/article/2621775
- 发布时间: 2026-01-21
- 类型: 选型指南
- 保留理由:
- 覆盖 2026 年集中式 vs 分布式数据库选型六大维度(事务一致性/高可用/扩展性/性能/生态/成本)
- 有具体数据表(TPMC、延迟、容量、RTO)和行业趋势(68% 新增政企项目采用混合架构)
- 务实不追新,有真实业务场景分类(核心交易/ERP/工业控制/互联网平台/数据仓库)
- 工程价值: 中——作为数据库选型决策参考有实用价值;但非源码/命令类,不适合精读
- 可信度: 中——技术博客整理,非一手研究,需交叉验证
- 后续行动: 作为选型讨论参考,不写入主题页
🔶 保留 14:2026分布式存储选型:告别数据孤岛之战
- 来源: CSDN 博客
- URL: https://blog.csdn.net/2601_96146993/article/details/161323006
- 发布时间: 2026(具体日期待补)
- 类型: 选型分析
- 保留理由:
- 标题直指 2026 企业分布式存储痛点(数据孤岛)
- 提及"统一存储能力"和"数据全生命周期管理"核心战场
- 工程价值: 低中——标题党成分较高,需实际内容核验;摘要暂存
- 可信度: 待定
- 后续行动: 实际打开文章核验内容深度;再做是否保留的最终决定
🔶 保留 15:亿级用户场景下的分布式数据存储解决方案
- 来源: CSDN(王知无)
- URL: https://www.yxnivw.com/product/78.html(原文应为 CSDN 王知无所写)
- 发布时间: 2026-06-07
- 类型: 架构演进综述
- 保留理由:
- 亿级用户场景完整数据存储体系梳理(MySQL → Sharding → HBase/Cassandra → Data Lake)
- 覆盖 CDC 服务、统一数据访问层、元数据管理、K8s 存储调度
- 作者王知无从 Java 到大数据的实操背景,内容偏实践
- 工程价值: 中——系统全面但缺新意;适合作为入门级架构参考
- 可信度: 中
- 后续行动: 补充到 backend-infrastructure.md 作为分布式架构演进案例;不需要写入精读队列
🟡 保留 16:2026企业级文件存储终极横评:NAS与分布式谁更适合你?
- 来源: CSDN.NET
- URL: https://www.csdn.net/article/2026-06-13/161960171
- 发布时间: 2026-06-13
- 类型: 产品横评
- 保留理由:
- 横向评测深信服 EDS、浪潮 AS13000、新华三 UniStor
- 提及深信服 EDS 内部 PhxKV 分布式元数据引擎(自研)
- 覆盖文件存储性能对比、AI 原生承载(向量存储/目录桶/对象 GDS)
- 有具体性能数字(55 万+ IOPS、120GB/s 读)
- 工程价值: 中——产品评测有具体数字,但本质是市场营销内容;适量参考
- 可信度: 中低——CSDN 软文性质,不能作为选型唯一依据
- 后续行动: 提取关键数字作为产品参考,不写入知识库精读队列
五、丢弃条目及理由
| 序号 | 条目 | 丢弃理由 |
|---|---|---|
| 1 | CSDN 分散式业务架构信息化融通方案 | 综合性方案概述,无具体技术深度,无命令/配置/源码 |
| 2 | CSDN 集中式 vs 分布式:决策树 | 内容与序号 13 重复,决策树形式不适合知识库条目 |
| 3 | "AI for Data Management" 类 CSDN 文章 | 概念性描述,无具体实现或 benchmark 数据 |
| 4 | arXiv cs.AI/cs.LG June 作者列表(无具体论文) | 仅作者名列表,无实际论文条目,无法评估价值 |
六、高价值条目汇总
| 优先级 | 条目 | 类型 | 核心贡献 |
|---|---|---|---|
| ⭐⭐⭐ | IntentKV (2606.09916) | arXiv 系统 | Agent 多轮 KV 压缩,↓77.8% worst-case KV |
| ⭐⭐⭐ | ParisKV (2602.07721) | arXiv 系统 | Million-token KV retrieval,2.8×吞吐 |
| ⭐⭐⭐ | Xkernel (OSDI 2026) | 系统论文 | OS 内核性能可调性 |
| ⭐⭐ | SCOPE (KDD 2026) | arXiv 研究 | Compound AI 成本-质量模型选择 |
| ⭐⭐ | QVCache | arXiv 系统 | ANN query-level caching,40–1000×延迟降低 |
| ⭐⭐ | GPU INT8 KV Quantization | arXiv 优化 | CUDA vectorized kernel,1694×加速 |
| ⭐⭐ | EMA (VLDB 2026) | arXiv 研究 | 带属性过滤的 ANN + 动态更新 |
| ⭐ | IceCache | arXiv 系统 | 长序列 KV cache 内存管理 |
| ⭐ | Harvest | arXiv 系统 | P2P GPU 显存池化推理加速 |
| ⭐ | Oxbow (OSDI 2026) | 系统论文 | 多组件文件系统协调架构 |
| ⭐ | HRNN (VLDB 2026 Demo) | arXiv 系统 | 高维向量 RkNN 混合图索引 |
| ⭐ | 集中式 vs 分布式 2026 选型 (CSDN) | 技术博客 | 六大维度选型参考 |
七、建议写入路径
- 主要写入:
/shared/research-kb/inbox/jay/2026-06-18-1105-database-llm-systems-round2.md(本文档) - 补充说明: Round 1 工程筛选(
2026-06-18-1050-engineering-filter-round1.md)与本文档互补,前者侧重 Agent 工程、推理框架评测;本文档侧重数据库系统和 KV Cache 优化研究 - 关联主题页更新建议:
topics/inference-engineering.md→ 补充 IntentKV、ParisKV、IceCache、Harvest、INT8 KV Quantizationtopics/database-systems.md→ 补充 EMA、HRNN、SCOPE(若已存在则更新)topics/rag-paradigm.md→ 补充 QVCache(RAG retrieval 优化)topics/cloud-native.md→ 补充 Xkernel、Oxbow(OSDI 2026)topics/backend-infrastructure.md→ 补充亿级用户分布式存储架构案例
八、是否需要精读/审稿/主题页更新
| 行动项 | 优先级 | 负责 |
|---|---|---|
| 精读 IntentKV 原文(arXiv 2606.09916) | ⭐⭐⭐ | 知识库团队 |
| 精读 ParisKV 原文(2602.07721) | ⭐⭐ | 知识库团队 |
| 获取 Xkernel PDF 核验 OSDI 2026 内容 | ⭐⭐ | 知识库团队 |
| 核验 IntentKV 在 Qwen3-8B/Qwen2.5-14B 上的具体 KV budget 配置 | ⭐⭐ | 知识库团队 |
| 更新 inference-engineering.md KV Cache 优化工具链 | ⭐⭐ | 知识库团队 |
| 核验 SCOPE(KDD 2026)arXiv 原文 | ⭐⭐ | 知识库团队 |
| 核验 HRNN 原文和开源代码 | ⭐ | 知识库团队 |
| 核验 QVCache 与 Qdrant/Pinecone 集成方式 | ⭐ | 知识库团队 |
Jay · 2026-06-18 11:05 UTC+8 · 数据库 + LLM 推理系统 Round 2 · 上次工程筛选 Round 1 已在 10:50 产出