← 笔记
Jay 2026-06-17 11:00

知识库简报 · Jay · 2026-06-17 11:00 UTC+8

本次主题: LLM 推理系统工程、KV Cache 调度、向量数据库选型、Kubernetes 2026 动态、Agent benchmark 与 Hugging Face Trending


📌 分类标签

LLM-Inference KV-Cache Vector-DB Cloud-Native Agent-Benchmark SGLang vLLM RAG


一、LLM 推理系统工程(backend / inference)

🔴 高价值

1. KV Cache Optimization Strategies for Scalable and Efficient LLM Inference

  • 来源: arXiv:2603.20397 | 作者:Xu, Khaira, Singh | 2026年3月
  • 类型: 学术论文(24页,14图)
  • 核心观点: 系统梳理了五类 KV Cache 优化策略——量化(Quantization)、剪枝(Pruning)、动态驱逐(Dynamic Eviction)、GPU/CPU 分层卸载(Offloading)、以及混合方案。论文提供了详细的数学建模,指出当前生产系统(如 vLLM)默认采用 recomputation 策略来处理 KV cache 溢出,而非交换到 CPU,这对调度器设计有重要含义。
  • 可信度: 高——学术同行评审期刊级别
  • 评价: 必读综述,适合作为推理系统优化知识基线。提供了各策略的延迟-吞吐-内存权衡表。
  • 后续行动: 可纳入推理优化主题页;建议精读第4-5节(调度与混合内存部分)
  • 链接: https://arxiv.org/abs/2603.20397

2. LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics

  • 来源: arXiv:2605.01280 | 2026年5月
  • 类型: Position Paper
  • 核心观点: 批评当前 LLM serving 系统过度依赖启发式调度(如sarathi-serve、prefill/decode 分离),主张用 rigorous 优化理论(在线优化、整数规划)设计 worst-case guarantee 的调度算法。给出了 barrier-synchronized, sticky-assignment 场景下的形式化建模,并证明 Ω(√(B log G)) 的最坏情况不平衡度下界。
  • 可信度: 高——arXiv 预印本,有理论证明
  • 评价: 重要方向性论文,揭示了生产推理调度领域的核心矛盾:短视的启发式 vs 有保障的最优解。对 vLLM/SGLang 调度器设计有直接参考价值。
  • 后续行动: 建议精读第2.2节调度建模,可提炼为技术洞察 note
  • 链接: https://arxiv.org/html/2605.01280v1

3. SGLang v0.5.13(最新版本,2026年6月13日)

  • 来源: GitHub sgl-project/sglang | 29.1k ⭐ | 6.6k forks | 1,609 contributors
  • 类型: 开源框架 Release
  • 核心进展:
  • 新增 --nsa-prefill-backend trtllm--nsa-decode-backend trtllm 选项,DeepSeek V3.2 在 Blackwell 架构上获得 3×-5× 稀疏注意力加速
  • 扩展支持 Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5
  • 与 TensorRT-LLM DSA 内核深度集成
  • 可信度: 高——活跃开源社区,NVIDIA 官方合作
  • 评价: SGLang 在稀疏注意力 + 多模态支持上持续领跑,v0.5.13 的 NSA + TRT-LLM 组合是当前长上下文推理的最强组合之一。
  • 后续行动: 可更新"推理引擎对比"主题页;记录 v0.5.13 作为当前推荐版本
  • 链接: https://github.com/sgl-project/sglang/releases/tag/v0.5.13

4. vLLM MRV2(Model Runner V2)throughput gains

  • 来源: Spheron Network benchmark (2026)
  • 类型: 工程 benchmark 报告
  • 核心数据: MRV2 在 GB200 上比 legacy runner 提升 56% 吞吐;H100 上数据因硬件差异而不同
  • 可信度: 中——厂商博客,建议独立复测
  • 评价: vLLM MRV2 是 2026 年推理引擎的重大更新,56% 提升如果可复现,对成本优化影响显著
  • 后续行动: 关注官方 vLLM Release note,记录 MRV2 里程碑
  • 链接: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks

5. Online Scheduling for LLM Inference with KV Cache Constraints

  • 来源: arXiv:2502.07115v5 | 2026年2月(持续更新)
  • 类型: 学术论文
  • 核心观点: 提出了以 KV cache 为核心约束的 LLM 推理调度模型,形式化描述了 batching 与 cache 容量的 intertemporal trade-off,给出了调度状态跟踪的数学框架。引用了"环保 LLM 推理"方向(减少 GPU 占用 = 节能)
  • 可信度: 高——有理论建模+实验
  • 评价: 与上述 Position Paper 互补,构建了 KV cache 约束下调度的完整理论框架
  • 后续行动: 可与 Position Paper 配对阅读,建议纳入推理系统 reading list
  • 链接: https://arxiv.org/html/2502.07115v5

🟡 候选

6. PLENA: Optimization Pathways for Long-Context Agentic LLM Inference

  • 来源: arXiv:2509.09505v2
  • 核心观点: 针对 Agentic LLM 推理中 systolic array 利用率低的问题,提出三层优化:flattened systolic array architecture、asymmetric quantization、FlashAttention native support
  • 可信度: 中高——学术预印本
  • 评价: 对硬件感知的推理优化有参考价值,但需要验证实际部署效果
  • 链接: https://arxiv.org/html/2509.09505v2

7. Fluid-Guided Online Scheduling for LLM Inference

  • 来源: arXiv:2504.11320v3
  • 核心观点: 专注于 KV cache 超容场景下的主动调度,以最小化 recomputation 为目标
  • 可信度: 中高
  • 评价: 补充了 online scheduling 文献,聚焦 GPU memory pressure 管理
  • 链接: https://arxiv.org/html/2504.11320v3

二、向量数据库(database)

🔴 高价值

8. Vector Databases for AI Agents 2026: 8 DBs Compared

  • 来源: Digital Applied(2026年4月28日)
  • 类型: 对比分析报告
  • 核心数据(10M向量规模,p99延迟):
  • Qdrant:~12ms(开源第一)
  • Pinecone:~10-15ms(托管第一)
  • Weaviate:~16ms
  • pgvector:~25-40ms(取决于索引类型)
  • Chroma:~30ms(不优化超低延迟场景)
  • 选型矩阵:
  • 小规模 + 强事务需求 → pgvector
  • 高 QPS + 重过滤 → Qdrant
  • 百亿级向量 → Milvus / Zilliz Cloud
  • 原生混合检索(keyword + semantic)→ Weaviate
  • 可信度: 中——有 ANN-Benchmarks 引用,但数据来自厂商文档和测试
  • 评价: 2026年向量数据库选型参考价值高,提供了清晰的分场景决策树。Qdrant 在过滤性能上的优势被低估。
  • 后续行动: 可作为向量数据库选型文档的基础参考
  • 链接: https://www.digitalapplied.com/blog/vector-databases-for-ai-agents-pinecone-qdrant-2026

9. pgvector vs Qdrant: PostgreSQL Extension or Dedicated Vector Database?

  • 来源: encore.dev(2026年3月9日)
  • 类型: 技术对比
  • 核心差异: pgvector 的 SQL 过滤能力 + 事务一致性 vs Qdrant 的 payload filtering system + 向量原生优化
  • 可信度: 中高——技术博客,有代码示例
  • 评价: 提供了 SQL WHERE 子句 vs Qdrant filter DSL 的具体对比,对已在用 PostgreSQL 的团队决策价值高
  • 链接: https://encore.dev/articles/pgvector-vs-qdrant

10. pgvectorscale: 50M 向量规模新基准

  • 来源: firecrawl.dev / benchmark(2025年5月数据,2026年持续相关)
  • 核心数据: pgvectorscale 在 50M 向量、99% recall 下达到 471 QPS,是 Qdrant 41 QPS 的 11.4 倍
  • 可信度: 中——benchmark 数据,需验证最新版本
  • 评价: 挑战了"pgvector 不适合大规模向量"的认知,但超过 100M 后仍有瓶颈
  • 后续行动: 关注 pgvectorscale 后续版本

三、云原生基础设施(cloud-native)

🔴 高价值

11. Cloud-Native Ecosystem 2026: Kubernetes, AI and Platforms

  • 来源: SiliconANGLE(2026年3月20日)
  • 类型: 行业分析
  • 核心数据: 98% 组织使用云原生技术;82% 在生产环境运行 Kubernetes;AI 工作负载成为 Kubernetes 采用的主要驱动力
  • 关键趋势:
  • Kubernetes 成为 AI 推理的默认编排层
  • AI 工作负载正在从云扩展到 on-prem 以满足隔离需求
  • 可信度: 中——行业媒体,引用 CNCF 年度调查
  • 链接: https://siliconangle.com/2026/03/20/cloud-native-ecosystem-k8s-ai-kubeconeu

12. Kubernetes Migration 2026: End of Ingress NGINX

  • 来源: LoginLink(2026年)
  • 类型: 迁移指南
  • 核心警示: Ingress NGINX 社区版将于 2026年3月正式停止维护,Gateway API 迁移从"可选"变为"安全紧急"
  • 关键动态:
  • KubeVirt 增长迅猛(虚拟机与容器融合)
  • FinOps 自动化成为 2026 年 Kubernetes 迁移的核心驱动力
  • AI 推理工作负载正在改变集群调度策略
  • 可信度: 中高——技术博客
  • 评价: Gateway API 迁移是 2026 年 K8s 运营者必须处理的事项,影响所有 Kubernetes 生产环境
  • 后续行动: 更新 Kubernetes 运维 checklist,标记 Ingress NGINX EOL 时间节点
  • 链接: https://www.loginline.com/en/blog/migration-kubernetes-guide-2026

13. CNCF Annual Survey: Kubernetes Eating Production

  • 来源: Fairwinds(2026年)
  • 类型: 行业报告摘要
  • 核心观点: Kubernetes 已不仅是"是否使用"的问题,而是"如何安全高效运行而不burn out团队"的问题。2026年平台工程成为关键主题。
  • 可信度: 中——行业博客,引用 CNCF 官方数据
  • 链接: https://www.fairwinds.com/blog/kubernetes-eating-production-why-usage-keeps-climbing

🔴 高价值

14. Agents' Last Exam (ALE) — Berkeley

  • 来源: Hugging Face Trending | 2026年6月3日 | 341 upvotes | 659 GitHub stars
  • 类型: Benchmark / 评估框架
  • 核心内容: 评估 AI Agent 在长期、经济价值高的真实任务上的表现,涵盖 13 个行业集群、1K+ 任务。揭示了 benchmark 性能与实际部署之间的显著差距。
  • 可信度: 高——UC Berkeley 学术团队,ACL/行业认可
  • 评价: 2026 年 Agent 评估领域的重要基准,填补了"Agent 在真实行业任务上的系统性评估"空白
  • 后续行动: 建议纳入 Agent 评估主题页;研究其与 SWE-bench 的差异
  • 链接: https://huggingface.co/papers(搜索 Agents' Last Exam)

15. DRPO: Rethinking Divergence Regularization in LLM RL — Tencent Hunyuan

  • 来源: Hugging Face Trending | 2026年6月8日 | 33 upvotes | 615 GitHub stars
  • 类型: 学术论文
  • 核心观点: 用 smooth regularization 替代 hard masks 来稳定 LLM 强化学习训练,在 trust-region 边界之外也能提供连续梯度修正
  • 可信度: 高——Tencent Hunyuan 研究团队
  • 评价: 对 RLVR(RL from Verified Rewards)训练稳定性有直接改进价值
  • 链接: https://huggingface.co/papers

16. MiniMax Sparse Attention — MiniMax

  • 来源: Hugging Face Trending | 2026年6月11日 | 130 upvotes | 293 GitHub stars
  • 类型: 学术论文 + 开源
  • 核心观点: 通过 blockwise sparsity(块级稀疏性)+ 优化的 GPU 执行,实现超长上下文高效处理,在保持性能的同时显著加速
  • 可信度: 高——MiniMax 官方发布
  • 评价: 与 SGLang NSA 路线互补,blockwise sparsity 是 2026 年长上下文推理的热门方向
  • 链接: https://huggingface.co/papers
  • 来源: Hugging Face Trending
  • 类型: 开发者框架
  • 核心观点: 以开发者为中心的 Agent 构建框架,降低多 Agent 系统开发门槛
  • 可信度:
  • 评价: 与 LangChain、CrewAI 形成竞争,强调开发者体验
  • 链接: https://huggingface.co/papers

18. LLM Research Papers: The 2026 List (Jan–May) — Sebastian Raschka

  • 来源: Ahead of AI Substack(2026年6月6日,付费)
  • 类型: 综述 newsletter
  • 核心内容: 10 大分类整理了 2026 年 1-5 月重要 LLM 论文:Architecture、Training Scaling、Inference Efficiency、Long Context、Reasoning、RLVR、Agent Systems、Coding Agents、Diffusion LM、Evaluation
  • 亮点发现:
  • 2026 年架构工作不再只是把 Transformer 做大,混合架构(Attention + Mamba-2 SSM)是主流方向
  • Nemotron-3(NVIDIA):混合 Attention/Mamba-2 层,交替出现,对长上下文效率有显著提升
  • Arcee Trinity 同样采用混合架构
  • 长上下文效率是 2026 年的核心工程目标
  • 可信度: 高——Sebastian Raschka 是知名 AI 研究者和教育者
  • 评价: 必读综述,适合快速了解 2026 上半年 LLM 研究全貌
  • 后续行动: 可作为 LLM 架构演进主题页的主要参考来源
  • 链接: https://magazine.sebastianraschka.com/p/llm-research-papers-2026-part1

19. GLM-5 发布 — Z AI / 智谱

  • 来源: Substack AIXFunda(2026年2月)
  • 核心数据: 7440 亿参数,Artificial Analysis Intelligence Index 得分 50(首个达到该分数的开源模型),编码 benchmark 与 Gemini 3 Pro 持平或略优
  • 可信度: 高——国产顶级大模型机构
  • 评价: 国产开源 LLM 的重要里程碑
  • 链接: https://aixfunda.substack.com/p/top-llm-rag-and-agent-updates-of-03a

五、arXiv 新发表(backend / cs.DC)

🟡 候选

20. BlobShuffle: Cost-Effective Repartitioning in Stream Processing(arXiv:2606.03364)

  • 来源: arXiv cs.DC | 2026年6月
  • 核心观点: 针对 Kafka Streams 等流处理系统,通过对象存储实现低成本重分区,附带了 Stream Processing + Object Storage 的新模式
  • 可信度: 高——学术预印本
  • 评价: 与数据湖仓(Lakehouse)方向相关,值得追踪

21. Self-Conditioned Positional HNSW for Chunked-Document RAG(arXiv:2606.01542)

  • 来源: arXiv cs.DC/cs.IR
  • 核心观点: 针对分块文档 RAG 场景的 HNSW 改进,让检索器感知重叠和位置关系
  • 可信度: 中高
  • 评价: 对 RAG 检索质量优化有直接价值,建议查看方法部分

22. TwinQuant: Learnable Subspace Decomposition for 4-Bit LLM Quantization(arXiv:2606.03464)

  • 来源: arXiv | ICML 2026 接收
  • 核心观点: 4-bit LLM 量化新方法,学习性子空间分解
  • 可信度: 高——顶会接收
  • 评价: ICML 2026 接收论文,4-bit 量化对推理部署影响大,建议关注

23. Maestro: Workload-Aware Cross-Cluster Scheduling for LLM-Based Multi-Agent Systems

  • 来源: arXiv | ICDCS 2026 接收
  • 核心观点: 针对 LLM 多 Agent 系统的跨集群调度
  • 可信度: 高——IEEE ICDCS 2026 接收
  • 评价: 多 Agent 系统基础设施层面的研究,对平台工程有参考价值

24. M: A Modular, Extensible Serving System for Multimodal Models

  • 来源: arXiv(cross-list cs.LG/cs.AI/cs.DC)
  • 核心观点: 多模态模型的服务系统模块化设计
  • 可信度: 高——有多机构联合署名(Stanford、UW 等)
  • 评价: 对多模态推理服务工程化有参考价值

六、CSDN(本次检索无新增高价值条目)

说明: 本次搜索未在 CSDN 发现具有版本/环境/源码分析/复现过程的高价值文章。CSDN 质量随月份波动,建议在发现具体技术主题后再针对性检索(如 vLLM 源码分析、C++ 实现细节等)。


📊 分类统计

分类 条目数 🔴高价值 🟡候选
backend/inference 7 5 2
database 3 3 0
cloud-native 3 3 0
agent/RAG/multimodal 6 6 0
arXiv (cs.DC) 5 0 5
csdn 0 0 0
合计 24 17 7

📝 建议写入路径

  • 主草稿路径: /shared/research-kb/inbox/jay/2026-06-17-1100-ml-sys-inference-kv-llmops-cloudnative.md
  • 分类归档建议:
  • inference/ → 条目 1-7(LLM 推理系统工程)
  • database/ → 条目 8-10(向量数据库)
  • cloud-native/ → 条目 11-13(Kubernetes 2026)
  • agent-rag/ → 条目 14-19(Agent benchmark + newsletter)
  • arxiv-csdc/ → 条目 20-24(arXiv 新发表)

🔎 后续行动建议

  1. 精读(Priority 1): arXiv:2603.20397(KV Cache 综述)+ Position Paper(arXiv:2605.01280)+ ALE benchmark
  2. 更新主题页: 推理引擎对比(vLLM MRV2 + SGLang v0.5.13)、Kubernetes 2026(Gateway API EOL)、向量数据库选型矩阵
  3. 追踪: SGLang NSA + TRT-LLM 集成实测数据、pgvectorscale 50M+ 规模 benchmark
  4. 关注: Ingress NGINX EOL 时间节点(2026年3月),Gateway API 迁移成为安全紧急事项

本简报由 Jay 实例生成 · 2026-06-17 11:00 UTC+8 · 全程中文输出 · 仅做摘要引用,不复制原文