知识库简报 · Jay · 2026-06-17 11:00 UTC+8

本次主题： LLM 推理系统工程、KV Cache 调度、向量数据库选型、Kubernetes 2026 动态、Agent benchmark 与 Hugging Face Trending

📌 分类标签

LLM-Inference KV-Cache Vector-DB Cloud-Native Agent-Benchmark SGLang vLLM RAG

一、LLM 推理系统工程（backend / inference）

🔴 高价值

1. KV Cache Optimization Strategies for Scalable and Efficient LLM Inference

来源： arXiv:2603.20397 | 作者：Xu, Khaira, Singh | 2026年3月
类型： 学术论文（24页，14图）
核心观点： 系统梳理了五类 KV Cache 优化策略——量化（Quantization）、剪枝（Pruning）、动态驱逐（Dynamic Eviction）、GPU/CPU 分层卸载（Offloading）、以及混合方案。论文提供了详细的数学建模，指出当前生产系统（如 vLLM）默认采用 recomputation 策略来处理 KV cache 溢出，而非交换到 CPU，这对调度器设计有重要含义。
可信度： 高——学术同行评审期刊级别
评价： 必读综述，适合作为推理系统优化知识基线。提供了各策略的延迟-吞吐-内存权衡表。
后续行动： 可纳入推理优化主题页；建议精读第4-5节（调度与混合内存部分）
链接： https://arxiv.org/abs/2603.20397

2. LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics

来源： arXiv:2605.01280 | 2026年5月
类型： Position Paper
核心观点： 批评当前 LLM serving 系统过度依赖启发式调度（如sarathi-serve、prefill/decode 分离），主张用 rigorous 优化理论（在线优化、整数规划）设计 worst-case guarantee 的调度算法。给出了 barrier-synchronized, sticky-assignment 场景下的形式化建模，并证明 Ω(√(B log G)) 的最坏情况不平衡度下界。
可信度： 高——arXiv 预印本，有理论证明
评价： 重要方向性论文，揭示了生产推理调度领域的核心矛盾：短视的启发式 vs 有保障的最优解。对 vLLM/SGLang 调度器设计有直接参考价值。
后续行动： 建议精读第2.2节调度建模，可提炼为技术洞察 note
链接： https://arxiv.org/html/2605.01280v1

3. SGLang v0.5.13（最新版本，2026年6月13日）

来源： GitHub sgl-project/sglang | 29.1k ⭐ | 6.6k forks | 1,609 contributors
类型： 开源框架 Release
核心进展：
新增 --nsa-prefill-backend trtllm 和 --nsa-decode-backend trtllm 选项，DeepSeek V3.2 在 Blackwell 架构上获得 3×-5× 稀疏注意力加速
扩展支持 Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5
与 TensorRT-LLM DSA 内核深度集成
可信度： 高——活跃开源社区，NVIDIA 官方合作
评价： SGLang 在稀疏注意力 + 多模态支持上持续领跑，v0.5.13 的 NSA + TRT-LLM 组合是当前长上下文推理的最强组合之一。
后续行动： 可更新"推理引擎对比"主题页；记录 v0.5.13 作为当前推荐版本
链接： https://github.com/sgl-project/sglang/releases/tag/v0.5.13

4. vLLM MRV2（Model Runner V2）throughput gains

来源： Spheron Network benchmark (2026)
类型： 工程 benchmark 报告
核心数据： MRV2 在 GB200 上比 legacy runner 提升 56% 吞吐；H100 上数据因硬件差异而不同
可信度： 中——厂商博客，建议独立复测
评价： vLLM MRV2 是 2026 年推理引擎的重大更新，56% 提升如果可复现，对成本优化影响显著
后续行动： 关注官方 vLLM Release note，记录 MRV2 里程碑
链接： https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks

5. Online Scheduling for LLM Inference with KV Cache Constraints

来源： arXiv:2502.07115v5 | 2026年2月（持续更新）
类型： 学术论文
核心观点： 提出了以 KV cache 为核心约束的 LLM 推理调度模型，形式化描述了 batching 与 cache 容量的 intertemporal trade-off，给出了调度状态跟踪的数学框架。引用了"环保 LLM 推理"方向（减少 GPU 占用 = 节能）
可信度： 高——有理论建模+实验
评价： 与上述 Position Paper 互补，构建了 KV cache 约束下调度的完整理论框架
后续行动： 可与 Position Paper 配对阅读，建议纳入推理系统 reading list
链接： https://arxiv.org/html/2502.07115v5

🟡 候选

6. PLENA: Optimization Pathways for Long-Context Agentic LLM Inference

来源： arXiv:2509.09505v2
核心观点： 针对 Agentic LLM 推理中 systolic array 利用率低的问题，提出三层优化：flattened systolic array architecture、asymmetric quantization、FlashAttention native support
可信度： 中高——学术预印本
评价： 对硬件感知的推理优化有参考价值，但需要验证实际部署效果
链接： https://arxiv.org/html/2509.09505v2

7. Fluid-Guided Online Scheduling for LLM Inference

来源： arXiv:2504.11320v3
核心观点： 专注于 KV cache 超容场景下的主动调度，以最小化 recomputation 为目标
可信度： 中高
评价： 补充了 online scheduling 文献，聚焦 GPU memory pressure 管理
链接： https://arxiv.org/html/2504.11320v3

二、向量数据库（database）

🔴 高价值

8. Vector Databases for AI Agents 2026: 8 DBs Compared

来源： Digital Applied（2026年4月28日）
类型： 对比分析报告
核心数据（10M向量规模，p99延迟）：
Qdrant：~12ms（开源第一）
Pinecone：~10-15ms（托管第一）
Weaviate：~16ms
pgvector：~25-40ms（取决于索引类型）
Chroma：~30ms（不优化超低延迟场景）
选型矩阵：
小规模 + 强事务需求 → pgvector
高 QPS + 重过滤 → Qdrant
百亿级向量 → Milvus / Zilliz Cloud
原生混合检索（keyword + semantic）→ Weaviate
可信度： 中——有 ANN-Benchmarks 引用，但数据来自厂商文档和测试
评价： 2026年向量数据库选型参考价值高，提供了清晰的分场景决策树。Qdrant 在过滤性能上的优势被低估。
后续行动： 可作为向量数据库选型文档的基础参考
链接： https://www.digitalapplied.com/blog/vector-databases-for-ai-agents-pinecone-qdrant-2026

9. pgvector vs Qdrant: PostgreSQL Extension or Dedicated Vector Database?

来源： encore.dev（2026年3月9日）
类型： 技术对比
核心差异： pgvector 的 SQL 过滤能力 + 事务一致性 vs Qdrant 的 payload filtering system + 向量原生优化
可信度： 中高——技术博客，有代码示例
评价： 提供了 SQL WHERE 子句 vs Qdrant filter DSL 的具体对比，对已在用 PostgreSQL 的团队决策价值高
链接： https://encore.dev/articles/pgvector-vs-qdrant

10. pgvectorscale: 50M 向量规模新基准

来源： firecrawl.dev / benchmark（2025年5月数据，2026年持续相关）
核心数据： pgvectorscale 在 50M 向量、99% recall 下达到 471 QPS，是 Qdrant 41 QPS 的 11.4 倍
可信度： 中——benchmark 数据，需验证最新版本
评价： 挑战了"pgvector 不适合大规模向量"的认知，但超过 100M 后仍有瓶颈
后续行动： 关注 pgvectorscale 后续版本

三、云原生基础设施（cloud-native）

🔴 高价值

11. Cloud-Native Ecosystem 2026: Kubernetes, AI and Platforms

来源： SiliconANGLE（2026年3月20日）
类型： 行业分析
核心数据： 98% 组织使用云原生技术；82% 在生产环境运行 Kubernetes；AI 工作负载成为 Kubernetes 采用的主要驱动力
关键趋势：
Kubernetes 成为 AI 推理的默认编排层
AI 工作负载正在从云扩展到 on-prem 以满足隔离需求
可信度： 中——行业媒体，引用 CNCF 年度调查
链接： https://siliconangle.com/2026/03/20/cloud-native-ecosystem-k8s-ai-kubeconeu

12. Kubernetes Migration 2026: End of Ingress NGINX

来源： LoginLink（2026年）
类型： 迁移指南
核心警示： Ingress NGINX 社区版将于 2026年3月正式停止维护，Gateway API 迁移从"可选"变为"安全紧急"
关键动态：
KubeVirt 增长迅猛（虚拟机与容器融合）
FinOps 自动化成为 2026 年 Kubernetes 迁移的核心驱动力
AI 推理工作负载正在改变集群调度策略
可信度： 中高——技术博客
评价： Gateway API 迁移是 2026 年 K8s 运营者必须处理的事项，影响所有 Kubernetes 生产环境
后续行动： 更新 Kubernetes 运维 checklist，标记 Ingress NGINX EOL 时间节点
链接： https://www.loginline.com/en/blog/migration-kubernetes-guide-2026

13. CNCF Annual Survey: Kubernetes Eating Production

来源： Fairwinds（2026年）
类型： 行业报告摘要
核心观点： Kubernetes 已不仅是"是否使用"的问题，而是"如何安全高效运行而不burn out团队"的问题。2026年平台工程成为关键主题。
可信度： 中——行业博客，引用 CNCF 官方数据
链接： https://www.fairwinds.com/blog/kubernetes-eating-production-why-usage-keeps-climbing

🔴 高价值

14. Agents' Last Exam (ALE) — Berkeley

来源： Hugging Face Trending | 2026年6月3日 | 341 upvotes | 659 GitHub stars
类型： Benchmark / 评估框架
核心内容： 评估 AI Agent 在长期、经济价值高的真实任务上的表现，涵盖 13 个行业集群、1K+ 任务。揭示了 benchmark 性能与实际部署之间的显著差距。
可信度： 高——UC Berkeley 学术团队，ACL/行业认可
评价： 2026 年 Agent 评估领域的重要基准，填补了"Agent 在真实行业任务上的系统性评估"空白
后续行动： 建议纳入 Agent 评估主题页；研究其与 SWE-bench 的差异
链接： https://huggingface.co/papers（搜索 Agents' Last Exam）

15. DRPO: Rethinking Divergence Regularization in LLM RL — Tencent Hunyuan

来源： Hugging Face Trending | 2026年6月8日 | 33 upvotes | 615 GitHub stars
类型： 学术论文
核心观点： 用 smooth regularization 替代 hard masks 来稳定 LLM 强化学习训练，在 trust-region 边界之外也能提供连续梯度修正
可信度： 高——Tencent Hunyuan 研究团队
评价： 对 RLVR（RL from Verified Rewards）训练稳定性有直接改进价值
链接： https://huggingface.co/papers

16. MiniMax Sparse Attention — MiniMax

来源： Hugging Face Trending | 2026年6月11日 | 130 upvotes | 293 GitHub stars
类型： 学术论文 + 开源
核心观点： 通过 blockwise sparsity（块级稀疏性）+ 优化的 GPU 执行，实现超长上下文高效处理，在保持性能的同时显著加速
可信度： 高——MiniMax 官方发布
评价： 与 SGLang NSA 路线互补，blockwise sparsity 是 2026 年长上下文推理的热门方向
链接： https://huggingface.co/papers

来源： Hugging Face Trending
类型： 开发者框架
核心观点： 以开发者为中心的 Agent 构建框架，降低多 Agent 系统开发门槛
可信度： 高
评价： 与 LangChain、CrewAI 形成竞争，强调开发者体验
链接： https://huggingface.co/papers

18. LLM Research Papers: The 2026 List (Jan–May) — Sebastian Raschka

来源： Ahead of AI Substack（2026年6月6日，付费）
类型： 综述 newsletter
核心内容： 10 大分类整理了 2026 年 1-5 月重要 LLM 论文：Architecture、Training Scaling、Inference Efficiency、Long Context、Reasoning、RLVR、Agent Systems、Coding Agents、Diffusion LM、Evaluation
亮点发现：
2026 年架构工作不再只是把 Transformer 做大，混合架构（Attention + Mamba-2 SSM）是主流方向
Nemotron-3（NVIDIA）：混合 Attention/Mamba-2 层，交替出现，对长上下文效率有显著提升
Arcee Trinity 同样采用混合架构
长上下文效率是 2026 年的核心工程目标
可信度： 高——Sebastian Raschka 是知名 AI 研究者和教育者
评价： 必读综述，适合快速了解 2026 上半年 LLM 研究全貌
后续行动： 可作为 LLM 架构演进主题页的主要参考来源
链接： https://magazine.sebastianraschka.com/p/llm-research-papers-2026-part1

19. GLM-5 发布 — Z AI / 智谱

来源： Substack AIXFunda（2026年2月）
核心数据： 7440 亿参数，Artificial Analysis Intelligence Index 得分 50（首个达到该分数的开源模型），编码 benchmark 与 Gemini 3 Pro 持平或略优
可信度： 高——国产顶级大模型机构
评价： 国产开源 LLM 的重要里程碑
链接： https://aixfunda.substack.com/p/top-llm-rag-and-agent-updates-of-03a

五、arXiv 新发表（backend / cs.DC）

🟡 候选

20. BlobShuffle: Cost-Effective Repartitioning in Stream Processing（arXiv:2606.03364）

来源： arXiv cs.DC | 2026年6月
核心观点： 针对 Kafka Streams 等流处理系统，通过对象存储实现低成本重分区，附带了 Stream Processing + Object Storage 的新模式
可信度： 高——学术预印本
评价： 与数据湖仓（Lakehouse）方向相关，值得追踪

21. Self-Conditioned Positional HNSW for Chunked-Document RAG（arXiv:2606.01542）

来源： arXiv cs.DC/cs.IR
核心观点： 针对分块文档 RAG 场景的 HNSW 改进，让检索器感知重叠和位置关系
可信度： 中高
评价： 对 RAG 检索质量优化有直接价值，建议查看方法部分

22. TwinQuant: Learnable Subspace Decomposition for 4-Bit LLM Quantization（arXiv:2606.03464）

来源： arXiv | ICML 2026 接收
核心观点： 4-bit LLM 量化新方法，学习性子空间分解
可信度： 高——顶会接收
评价： ICML 2026 接收论文，4-bit 量化对推理部署影响大，建议关注

23. Maestro: Workload-Aware Cross-Cluster Scheduling for LLM-Based Multi-Agent Systems

来源： arXiv | ICDCS 2026 接收
核心观点： 针对 LLM 多 Agent 系统的跨集群调度
可信度： 高——IEEE ICDCS 2026 接收
评价： 多 Agent 系统基础设施层面的研究，对平台工程有参考价值

24. M: A Modular, Extensible Serving System for Multimodal Models

来源： arXiv（cross-list cs.LG/cs.AI/cs.DC）
核心观点： 多模态模型的服务系统模块化设计
可信度： 高——有多机构联合署名（Stanford、UW 等）
评价： 对多模态推理服务工程化有参考价值

六、CSDN（本次检索无新增高价值条目）

说明： 本次搜索未在 CSDN 发现具有版本/环境/源码分析/复现过程的高价值文章。CSDN 质量随月份波动，建议在发现具体技术主题后再针对性检索（如 vLLM 源码分析、C++ 实现细节等）。

📊 分类统计

分类	条目数	🔴高价值	🟡候选
backend/inference	7	5	2
database	3	3	0
cloud-native	3	3	0
agent/RAG/multimodal	6	6	0
arXiv (cs.DC)	5	0	5
csdn	0	0	0
合计	24	17	7

📝 建议写入路径

主草稿路径： /shared/research-kb/inbox/jay/2026-06-17-1100-ml-sys-inference-kv-llmops-cloudnative.md
分类归档建议：
inference/ → 条目 1-7（LLM 推理系统工程）
database/ → 条目 8-10（向量数据库）
cloud-native/ → 条目 11-13（Kubernetes 2026）
agent-rag/ → 条目 14-19（Agent benchmark + newsletter）
arxiv-csdc/ → 条目 20-24（arXiv 新发表）

🔎 后续行动建议

精读（Priority 1）： arXiv:2603.20397（KV Cache 综述）+ Position Paper（arXiv:2605.01280）+ ALE benchmark
更新主题页： 推理引擎对比（vLLM MRV2 + SGLang v0.5.13）、Kubernetes 2026（Gateway API EOL）、向量数据库选型矩阵
追踪： SGLang NSA + TRT-LLM 集成实测数据、pgvectorscale 50M+ 规模 benchmark
关注： Ingress NGINX EOL 时间节点（2026年3月），Gateway API 迁移成为安全紧急事项

本简报由 Jay 实例生成 · 2026-06-17 11:00 UTC+8 · 全程中文输出 · 仅做摘要引用，不复制原文

知识库简报 · Jay · 2026-06-17 11:00 UTC+8

📌 分类标签

一、LLM 推理系统工程（backend / inference）

🔴 高价值

1. KV Cache Optimization Strategies for Scalable and Efficient LLM Inference

2. LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics

3. SGLang v0.5.13（最新版本，2026年6月13日）

4. vLLM MRV2（Model Runner V2）throughput gains

5. Online Scheduling for LLM Inference with KV Cache Constraints

🟡 候选

6. PLENA: Optimization Pathways for Long-Context Agentic LLM Inference

7. Fluid-Guided Online Scheduling for LLM Inference

二、向量数据库（database）

🔴 高价值

8. Vector Databases for AI Agents 2026: 8 DBs Compared

9. pgvector vs Qdrant: PostgreSQL Extension or Dedicated Vector Database?

10. pgvectorscale: 50M 向量规模新基准

三、云原生基础设施（cloud-native）

🔴 高价值

11. Cloud-Native Ecosystem 2026: Kubernetes, AI and Platforms

12. Kubernetes Migration 2026: End of Ingress NGINX

13. CNCF Annual Survey: Kubernetes Eating Production

四、Agent / RAG / Multimodal（Hugging Face Trending + Substack）

🔴 高价值

14. Agents' Last Exam (ALE) — Berkeley

15. DRPO: Rethinking Divergence Regularization in LLM RL — Tencent Hunyuan

16. MiniMax Sparse Attention — MiniMax

17. AgentScope 1.0 — HF Trending

18. LLM Research Papers: The 2026 List (Jan–May) — Sebastian Raschka

19. GLM-5 发布 — Z AI / 智谱

五、arXiv 新发表（backend / cs.DC）

🟡 候选

20. BlobShuffle: Cost-Effective Repartitioning in Stream Processing（arXiv:2606.03364）

21. Self-Conditioned Positional HNSW for Chunked-Document RAG（arXiv:2606.01542）

22. TwinQuant: Learnable Subspace Decomposition for 4-Bit LLM Quantization（arXiv:2606.03464）

23. Maestro: Workload-Aware Cross-Cluster Scheduling for LLM-Based Multi-Agent Systems

24. M: A Modular, Extensible Serving System for Multimodal Models

六、CSDN（本次检索无新增高价值条目）

📊 分类统计

📝 建议写入路径

🔎 后续行动建议