知识库简报 · Jay · 2026-06-17 11:00 UTC+8
本次主题: LLM 推理系统工程、KV Cache 调度、向量数据库选型、Kubernetes 2026 动态、Agent benchmark 与 Hugging Face Trending
📌 分类标签
LLM-Inference KV-Cache Vector-DB Cloud-Native Agent-Benchmark SGLang vLLM RAG
一、LLM 推理系统工程(backend / inference)
🔴 高价值
1. KV Cache Optimization Strategies for Scalable and Efficient LLM Inference
- 来源: arXiv:2603.20397 | 作者:Xu, Khaira, Singh | 2026年3月
- 类型: 学术论文(24页,14图)
- 核心观点: 系统梳理了五类 KV Cache 优化策略——量化(Quantization)、剪枝(Pruning)、动态驱逐(Dynamic Eviction)、GPU/CPU 分层卸载(Offloading)、以及混合方案。论文提供了详细的数学建模,指出当前生产系统(如 vLLM)默认采用 recomputation 策略来处理 KV cache 溢出,而非交换到 CPU,这对调度器设计有重要含义。
- 可信度: 高——学术同行评审期刊级别
- 评价: 必读综述,适合作为推理系统优化知识基线。提供了各策略的延迟-吞吐-内存权衡表。
- 后续行动: 可纳入推理优化主题页;建议精读第4-5节(调度与混合内存部分)
- 链接: https://arxiv.org/abs/2603.20397
2. LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics
- 来源: arXiv:2605.01280 | 2026年5月
- 类型: Position Paper
- 核心观点: 批评当前 LLM serving 系统过度依赖启发式调度(如sarathi-serve、prefill/decode 分离),主张用 rigorous 优化理论(在线优化、整数规划)设计 worst-case guarantee 的调度算法。给出了 barrier-synchronized, sticky-assignment 场景下的形式化建模,并证明 Ω(√(B log G)) 的最坏情况不平衡度下界。
- 可信度: 高——arXiv 预印本,有理论证明
- 评价: 重要方向性论文,揭示了生产推理调度领域的核心矛盾:短视的启发式 vs 有保障的最优解。对 vLLM/SGLang 调度器设计有直接参考价值。
- 后续行动: 建议精读第2.2节调度建模,可提炼为技术洞察 note
- 链接: https://arxiv.org/html/2605.01280v1
3. SGLang v0.5.13(最新版本,2026年6月13日)
- 来源: GitHub sgl-project/sglang | 29.1k ⭐ | 6.6k forks | 1,609 contributors
- 类型: 开源框架 Release
- 核心进展:
- 新增
--nsa-prefill-backend trtllm和--nsa-decode-backend trtllm选项,DeepSeek V3.2 在 Blackwell 架构上获得 3×-5× 稀疏注意力加速 - 扩展支持 Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5
- 与 TensorRT-LLM DSA 内核深度集成
- 可信度: 高——活跃开源社区,NVIDIA 官方合作
- 评价: SGLang 在稀疏注意力 + 多模态支持上持续领跑,v0.5.13 的 NSA + TRT-LLM 组合是当前长上下文推理的最强组合之一。
- 后续行动: 可更新"推理引擎对比"主题页;记录 v0.5.13 作为当前推荐版本
- 链接: https://github.com/sgl-project/sglang/releases/tag/v0.5.13
4. vLLM MRV2(Model Runner V2)throughput gains
- 来源: Spheron Network benchmark (2026)
- 类型: 工程 benchmark 报告
- 核心数据: MRV2 在 GB200 上比 legacy runner 提升 56% 吞吐;H100 上数据因硬件差异而不同
- 可信度: 中——厂商博客,建议独立复测
- 评价: vLLM MRV2 是 2026 年推理引擎的重大更新,56% 提升如果可复现,对成本优化影响显著
- 后续行动: 关注官方 vLLM Release note,记录 MRV2 里程碑
- 链接: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
5. Online Scheduling for LLM Inference with KV Cache Constraints
- 来源: arXiv:2502.07115v5 | 2026年2月(持续更新)
- 类型: 学术论文
- 核心观点: 提出了以 KV cache 为核心约束的 LLM 推理调度模型,形式化描述了 batching 与 cache 容量的 intertemporal trade-off,给出了调度状态跟踪的数学框架。引用了"环保 LLM 推理"方向(减少 GPU 占用 = 节能)
- 可信度: 高——有理论建模+实验
- 评价: 与上述 Position Paper 互补,构建了 KV cache 约束下调度的完整理论框架
- 后续行动: 可与 Position Paper 配对阅读,建议纳入推理系统 reading list
- 链接: https://arxiv.org/html/2502.07115v5
🟡 候选
6. PLENA: Optimization Pathways for Long-Context Agentic LLM Inference
- 来源: arXiv:2509.09505v2
- 核心观点: 针对 Agentic LLM 推理中 systolic array 利用率低的问题,提出三层优化:flattened systolic array architecture、asymmetric quantization、FlashAttention native support
- 可信度: 中高——学术预印本
- 评价: 对硬件感知的推理优化有参考价值,但需要验证实际部署效果
- 链接: https://arxiv.org/html/2509.09505v2
7. Fluid-Guided Online Scheduling for LLM Inference
- 来源: arXiv:2504.11320v3
- 核心观点: 专注于 KV cache 超容场景下的主动调度,以最小化 recomputation 为目标
- 可信度: 中高
- 评价: 补充了 online scheduling 文献,聚焦 GPU memory pressure 管理
- 链接: https://arxiv.org/html/2504.11320v3
二、向量数据库(database)
🔴 高价值
8. Vector Databases for AI Agents 2026: 8 DBs Compared
- 来源: Digital Applied(2026年4月28日)
- 类型: 对比分析报告
- 核心数据(10M向量规模,p99延迟):
- Qdrant:~12ms(开源第一)
- Pinecone:~10-15ms(托管第一)
- Weaviate:~16ms
- pgvector:~25-40ms(取决于索引类型)
- Chroma:~30ms(不优化超低延迟场景)
- 选型矩阵:
- 小规模 + 强事务需求 → pgvector
- 高 QPS + 重过滤 → Qdrant
- 百亿级向量 → Milvus / Zilliz Cloud
- 原生混合检索(keyword + semantic)→ Weaviate
- 可信度: 中——有 ANN-Benchmarks 引用,但数据来自厂商文档和测试
- 评价: 2026年向量数据库选型参考价值高,提供了清晰的分场景决策树。Qdrant 在过滤性能上的优势被低估。
- 后续行动: 可作为向量数据库选型文档的基础参考
- 链接: https://www.digitalapplied.com/blog/vector-databases-for-ai-agents-pinecone-qdrant-2026
9. pgvector vs Qdrant: PostgreSQL Extension or Dedicated Vector Database?
- 来源: encore.dev(2026年3月9日)
- 类型: 技术对比
- 核心差异: pgvector 的 SQL 过滤能力 + 事务一致性 vs Qdrant 的 payload filtering system + 向量原生优化
- 可信度: 中高——技术博客,有代码示例
- 评价: 提供了 SQL WHERE 子句 vs Qdrant filter DSL 的具体对比,对已在用 PostgreSQL 的团队决策价值高
- 链接: https://encore.dev/articles/pgvector-vs-qdrant
10. pgvectorscale: 50M 向量规模新基准
- 来源: firecrawl.dev / benchmark(2025年5月数据,2026年持续相关)
- 核心数据: pgvectorscale 在 50M 向量、99% recall 下达到 471 QPS,是 Qdrant 41 QPS 的 11.4 倍
- 可信度: 中——benchmark 数据,需验证最新版本
- 评价: 挑战了"pgvector 不适合大规模向量"的认知,但超过 100M 后仍有瓶颈
- 后续行动: 关注 pgvectorscale 后续版本
三、云原生基础设施(cloud-native)
🔴 高价值
11. Cloud-Native Ecosystem 2026: Kubernetes, AI and Platforms
- 来源: SiliconANGLE(2026年3月20日)
- 类型: 行业分析
- 核心数据: 98% 组织使用云原生技术;82% 在生产环境运行 Kubernetes;AI 工作负载成为 Kubernetes 采用的主要驱动力
- 关键趋势:
- Kubernetes 成为 AI 推理的默认编排层
- AI 工作负载正在从云扩展到 on-prem 以满足隔离需求
- 可信度: 中——行业媒体,引用 CNCF 年度调查
- 链接: https://siliconangle.com/2026/03/20/cloud-native-ecosystem-k8s-ai-kubeconeu
12. Kubernetes Migration 2026: End of Ingress NGINX
- 来源: LoginLink(2026年)
- 类型: 迁移指南
- 核心警示: Ingress NGINX 社区版将于 2026年3月正式停止维护,Gateway API 迁移从"可选"变为"安全紧急"
- 关键动态:
- KubeVirt 增长迅猛(虚拟机与容器融合)
- FinOps 自动化成为 2026 年 Kubernetes 迁移的核心驱动力
- AI 推理工作负载正在改变集群调度策略
- 可信度: 中高——技术博客
- 评价: Gateway API 迁移是 2026 年 K8s 运营者必须处理的事项,影响所有 Kubernetes 生产环境
- 后续行动: 更新 Kubernetes 运维 checklist,标记 Ingress NGINX EOL 时间节点
- 链接: https://www.loginline.com/en/blog/migration-kubernetes-guide-2026
13. CNCF Annual Survey: Kubernetes Eating Production
- 来源: Fairwinds(2026年)
- 类型: 行业报告摘要
- 核心观点: Kubernetes 已不仅是"是否使用"的问题,而是"如何安全高效运行而不burn out团队"的问题。2026年平台工程成为关键主题。
- 可信度: 中——行业博客,引用 CNCF 官方数据
- 链接: https://www.fairwinds.com/blog/kubernetes-eating-production-why-usage-keeps-climbing
四、Agent / RAG / Multimodal(Hugging Face Trending + Substack)
🔴 高价值
14. Agents' Last Exam (ALE) — Berkeley
- 来源: Hugging Face Trending | 2026年6月3日 | 341 upvotes | 659 GitHub stars
- 类型: Benchmark / 评估框架
- 核心内容: 评估 AI Agent 在长期、经济价值高的真实任务上的表现,涵盖 13 个行业集群、1K+ 任务。揭示了 benchmark 性能与实际部署之间的显著差距。
- 可信度: 高——UC Berkeley 学术团队,ACL/行业认可
- 评价: 2026 年 Agent 评估领域的重要基准,填补了"Agent 在真实行业任务上的系统性评估"空白
- 后续行动: 建议纳入 Agent 评估主题页;研究其与 SWE-bench 的差异
- 链接: https://huggingface.co/papers(搜索 Agents' Last Exam)
15. DRPO: Rethinking Divergence Regularization in LLM RL — Tencent Hunyuan
- 来源: Hugging Face Trending | 2026年6月8日 | 33 upvotes | 615 GitHub stars
- 类型: 学术论文
- 核心观点: 用 smooth regularization 替代 hard masks 来稳定 LLM 强化学习训练,在 trust-region 边界之外也能提供连续梯度修正
- 可信度: 高——Tencent Hunyuan 研究团队
- 评价: 对 RLVR(RL from Verified Rewards)训练稳定性有直接改进价值
- 链接: https://huggingface.co/papers
16. MiniMax Sparse Attention — MiniMax
- 来源: Hugging Face Trending | 2026年6月11日 | 130 upvotes | 293 GitHub stars
- 类型: 学术论文 + 开源
- 核心观点: 通过 blockwise sparsity(块级稀疏性)+ 优化的 GPU 执行,实现超长上下文高效处理,在保持性能的同时显著加速
- 可信度: 高——MiniMax 官方发布
- 评价: 与 SGLang NSA 路线互补,blockwise sparsity 是 2026 年长上下文推理的热门方向
- 链接: https://huggingface.co/papers
17. AgentScope 1.0 — HF Trending
- 来源: Hugging Face Trending
- 类型: 开发者框架
- 核心观点: 以开发者为中心的 Agent 构建框架,降低多 Agent 系统开发门槛
- 可信度: 高
- 评价: 与 LangChain、CrewAI 形成竞争,强调开发者体验
- 链接: https://huggingface.co/papers
18. LLM Research Papers: The 2026 List (Jan–May) — Sebastian Raschka
- 来源: Ahead of AI Substack(2026年6月6日,付费)
- 类型: 综述 newsletter
- 核心内容: 10 大分类整理了 2026 年 1-5 月重要 LLM 论文:Architecture、Training Scaling、Inference Efficiency、Long Context、Reasoning、RLVR、Agent Systems、Coding Agents、Diffusion LM、Evaluation
- 亮点发现:
- 2026 年架构工作不再只是把 Transformer 做大,混合架构(Attention + Mamba-2 SSM)是主流方向
- Nemotron-3(NVIDIA):混合 Attention/Mamba-2 层,交替出现,对长上下文效率有显著提升
- Arcee Trinity 同样采用混合架构
- 长上下文效率是 2026 年的核心工程目标
- 可信度: 高——Sebastian Raschka 是知名 AI 研究者和教育者
- 评价: 必读综述,适合快速了解 2026 上半年 LLM 研究全貌
- 后续行动: 可作为 LLM 架构演进主题页的主要参考来源
- 链接: https://magazine.sebastianraschka.com/p/llm-research-papers-2026-part1
19. GLM-5 发布 — Z AI / 智谱
- 来源: Substack AIXFunda(2026年2月)
- 核心数据: 7440 亿参数,Artificial Analysis Intelligence Index 得分 50(首个达到该分数的开源模型),编码 benchmark 与 Gemini 3 Pro 持平或略优
- 可信度: 高——国产顶级大模型机构
- 评价: 国产开源 LLM 的重要里程碑
- 链接: https://aixfunda.substack.com/p/top-llm-rag-and-agent-updates-of-03a
五、arXiv 新发表(backend / cs.DC)
🟡 候选
20. BlobShuffle: Cost-Effective Repartitioning in Stream Processing(arXiv:2606.03364)
- 来源: arXiv cs.DC | 2026年6月
- 核心观点: 针对 Kafka Streams 等流处理系统,通过对象存储实现低成本重分区,附带了 Stream Processing + Object Storage 的新模式
- 可信度: 高——学术预印本
- 评价: 与数据湖仓(Lakehouse)方向相关,值得追踪
21. Self-Conditioned Positional HNSW for Chunked-Document RAG(arXiv:2606.01542)
- 来源: arXiv cs.DC/cs.IR
- 核心观点: 针对分块文档 RAG 场景的 HNSW 改进,让检索器感知重叠和位置关系
- 可信度: 中高
- 评价: 对 RAG 检索质量优化有直接价值,建议查看方法部分
22. TwinQuant: Learnable Subspace Decomposition for 4-Bit LLM Quantization(arXiv:2606.03464)
- 来源: arXiv | ICML 2026 接收
- 核心观点: 4-bit LLM 量化新方法,学习性子空间分解
- 可信度: 高——顶会接收
- 评价: ICML 2026 接收论文,4-bit 量化对推理部署影响大,建议关注
23. Maestro: Workload-Aware Cross-Cluster Scheduling for LLM-Based Multi-Agent Systems
- 来源: arXiv | ICDCS 2026 接收
- 核心观点: 针对 LLM 多 Agent 系统的跨集群调度
- 可信度: 高——IEEE ICDCS 2026 接收
- 评价: 多 Agent 系统基础设施层面的研究,对平台工程有参考价值
24. M: A Modular, Extensible Serving System for Multimodal Models
- 来源: arXiv(cross-list cs.LG/cs.AI/cs.DC)
- 核心观点: 多模态模型的服务系统模块化设计
- 可信度: 高——有多机构联合署名(Stanford、UW 等)
- 评价: 对多模态推理服务工程化有参考价值
六、CSDN(本次检索无新增高价值条目)
说明: 本次搜索未在 CSDN 发现具有版本/环境/源码分析/复现过程的高价值文章。CSDN 质量随月份波动,建议在发现具体技术主题后再针对性检索(如 vLLM 源码分析、C++ 实现细节等)。
📊 分类统计
| 分类 | 条目数 | 🔴高价值 | 🟡候选 |
|---|---|---|---|
| backend/inference | 7 | 5 | 2 |
| database | 3 | 3 | 0 |
| cloud-native | 3 | 3 | 0 |
| agent/RAG/multimodal | 6 | 6 | 0 |
| arXiv (cs.DC) | 5 | 0 | 5 |
| csdn | 0 | 0 | 0 |
| 合计 | 24 | 17 | 7 |
📝 建议写入路径
- 主草稿路径:
/shared/research-kb/inbox/jay/2026-06-17-1100-ml-sys-inference-kv-llmops-cloudnative.md - 分类归档建议:
inference/→ 条目 1-7(LLM 推理系统工程)database/→ 条目 8-10(向量数据库)cloud-native/→ 条目 11-13(Kubernetes 2026)agent-rag/→ 条目 14-19(Agent benchmark + newsletter)arxiv-csdc/→ 条目 20-24(arXiv 新发表)
🔎 后续行动建议
- 精读(Priority 1): arXiv:2603.20397(KV Cache 综述)+ Position Paper(arXiv:2605.01280)+ ALE benchmark
- 更新主题页: 推理引擎对比(vLLM MRV2 + SGLang v0.5.13)、Kubernetes 2026(Gateway API EOL)、向量数据库选型矩阵
- 追踪: SGLang NSA + TRT-LLM 集成实测数据、pgvectorscale 50M+ 规模 benchmark
- 关注: Ingress NGINX EOL 时间节点(2026年3月),Gateway API 迁移成为安全紧急事项
本简报由 Jay 实例生成 · 2026-06-17 11:00 UTC+8 · 全程中文输出 · 仅做摘要引用,不复制原文