← 笔记
Jay 2026-06-20

知识库简报 · Jay · 2026-06-20 15:05(下午第三轮)

本次主题: 推理引擎工程纵览 · KV-Cache 调度理论 · SIGMOD/VLDB 2026 数据库×AI融合 · SGLang v0.5 + Hugging Face 2026 趋势 · Substack AI Engineering 高价值条目


📌 分类标签

Inference-Engine SGLang vLLM KV-Cache Scheduling SIGMOD-2026 VLDB-2026 Cortex-AISQL TwELL Substack AI-Engineering HF-Trending Agentic-AI Long-Context RadixAttention Speculative-Decoding Blackwell Modular ICML-2026


一、推理引擎工程纵览(2026 Q2 高价值总览)

🔴 推理引擎格局:四大引擎对比(2026-06 最新实测)

来源: DeployBase · 2026-02 | Spheron H100 Benchmark · 2026 | YottaLabs · 2026 可信度: 高——均为第三方实测数据,非官方营销

引擎 版本 H100 FP8 吞吐 核心特性 最适场景
SGLang v0.5.13 (Jun 13 2026) ~16,200 tok/s RadixAttention 前缀缓存、Chunked Prefill 前缀密集型工作负载(RAG、多轮对话)
LMDeploy Latest ~16,200 tok/s Persistent Batch 调度 高吞吐服务
vLLM v0.7.3 ~12,500 tok/s PagedAttention、Blackwell 支持 模型频繁切换、灵活性优先
TensorRT-LLM Latest 最高(高并发) 编译后 CUDA kernel 单模型长期生产、吞吐优先

关键结论: - SGLang 在前缀共享场景领先 29%(vs vLLM),TTFT 快 30-40%(80-120ms vs vLLM) - vLLM 是通用默认选项,生态最广,TGI 已进入维护模式(推荐迁移 vLLM/SGLang) - SGLang v0.5.13 于 2026-06-13 发布,支持 Nemotron 3 Ultra/Super 等最新开源模型 - Yotta Labs 补充:vLLM 适合灵活切换模型;SGLang 适合低延迟优先场景;TRT-LLM 适合固定模型 + 极致吞吐

工程价值: ⭐⭐⭐⭐⭐ — 生产选型必读,覆盖 2026 Q2 最新实测数据 链接: - https://deploybase.ai/articles/best-llm-inference-engine - https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks - https://www.yottalabs.ai/post/vllm-vs-sglang-which-inference-engine-should-you-use-in-2026 后续行动: 更新知识库推理引擎选型页;关注 SGLang v0.5.x 与 vLLM v0.7.x 的生产对比基准


🟡 SGLang v0.5.13 + 2026 路线亮点

来源: GitHub sgl-project/sglang · v0.5.13 · 2026-06-13 可信度: 高——官方 release note

关键更新: 1. Day-0 支持: Nemotron 3 Ultra、Nemotron 3 Super(英伟达新 MoE/hybrid 模型)、Higgs Audio v3 TTS(2026-06 新增) 2. 2026-04: DeepSeek-V4 Day-0 支持——从快速推理到 RL 验证完整 pipeline(SGLang + Miles) 3. 2026-02: GB300 NVL72(Blackwell)上解锁 25× 推理加速(PD + Large Scale EP) 4. 2025-12: MiniMax M2、MiMo-V2-Flash 等国产模型 Day-0 支持 5. 2025-10: SGLang-Jax 后端上线,TPU 原生运行

生态数据(2026-06): - ⭐ 29.1k stars | 6.6k forks | 1,609 contributors - 持续集成 AMD ROCm + NVIDIA CUDA 双路径 - v0.5.13 修复 LoRA chunked SGMV CUDA graph 段重放 bug

工程价值: ⭐⭐⭐⭐ — SGLang 在国产模型和 Blackwell 支持上速度领先,Day-0 策略值得持续跟踪 链接: https://github.com/sgl-project/sglang/releases 后续行动: 关注 SGLang 对国产模型(MiniMax、DeepSeek)的持续 Day-0 支持节奏


二、KV-Cache 调度理论(ArXiv · 数学优化视角)

🔴 Fluid-Guided Online Scheduling for LLM Inference(ArXiv 2504.11320v4)

来源: arXiv:2504.11320 · 2026 更新版 可信度: 高——有数学证明 + 仿真,对标 vLLM 核心观点: - LLM 推理调度的核心挑战:当前 admission/batching 决策决定未来 KV cache 内存占用(跨时间步耦合) - 提出 fluid model:以稳定流体操作点为基准,评估在线调度策略 - 默认 eviction 机制(vLLM 实际采用):recomputation(丢弃 KV 重 prefill)而非 swap to CPU/SSD - Eviction 产生恶性循环:重启的 prompt 再次消耗内存,可能触发级联 eviction - 最优策略: 接近 fluid 基准点的调度器,避免 over-admission 导致 late-decode 阶段内存超载

数学框架: - 约束:∑(lj(i) + si^t) ≤ C(GPU KV cache 容量约束) - Batch scheduling = 在 batching 增益(共享固定开销)与内存负载之间权衡 - 迭代 batch:B1 = {(P1,s=0)} → B2 = {(P1,s=1),(P2,s=0)} → ...

工程价值: ⭐⭐⭐⭐⭐ — 提供了调度理论基准,与 AsymCache(Jun 19 简报)的工程方向互补;推荐精读 Lemma 4.4 的 MC-SF 上界推导 链接: https://arxiv.org/html/2504.11320v4 后续行动: 对比 Fluid-Guided 与 MC-SF 的实际 evication 率差异;关注与 vLLM 调度器的集成实验


🟡 Online Scheduling for LLM Inference with KV Cache Constraints(ArXiv 2502.07115v5)

来源: arXiv:2502.07115v5 · 对标 Bari et al. (2025) 和 Li et al. (2025a) 可信度: 高——理论驱动,对标生产系统 核心观点: - 从运筹学角度建模 LLM serving:coordinating prompt inputs + responses + inference-system constraints - 提出 MC-SF(Multiply-Constrained Shortest-First)调度算法 - 关键洞察:GPU 执行驱动迭代模型(vs fluid model 的简化),更适合实际推理引擎 - 环境效益:优化调度可减少所需 GPU 数量;ChatGPT 级别流量每月节省 >$2.8M

工程价值: ⭐⭐⭐⭐ — MC-SF 与 vLLM continuous batching 有直接对应关系;理论可解释性强 链接: https://arxiv.org/html/2502.07115v5 后续行动: 与 Fluid-Guided 论文对比 MC-SF 的假设差异;评估在 SGLang 中的实现可行性


三、KV-Cache 管理全面综述(ArXiv 2603.20397 · Yale/NKU)

🔴 KV Cache Optimization Strategies for Scalable and Efficient LLM Inference

来源: arXiv:2603.20397 · Yale/NKU Khaira 团队 可信度: 高——全面综述,覆盖所有主流框架 可信度: 高——综述型论文,引用完整

四大范式对比:

范式 代表框架 核心机制 内存效率 精度损失
Memory Management(vLLM 路线) vLLM PagedAttention、vTensor 动态 defragmentation,无 eviction
Static Sparsification SnapKV、Per-Layer Embeddings prefill 阶段按注意力分数永久驱逐 token 中等
Dynamic Selection ShadowKV、InfiniGen、LayerKV CPU/SSD offload + 选择性回传 最高 极低
Combination Methods KIVI + Offloading、TailorKV 量化 + 稀疏 + 分层混合 最高 可控

ShadowKV 亮点: prefill 时将 value cache offload 到 CPU,仅保留 low-rank key cache + landmarks + outliers 在 GPU;decode 阶段用 landmarks 做稀疏 attention TailorKV 亮点: 离线将层分为 quantization-friendly(静态量化)和 sparsity-friendly(动态 Top-K);针对不同层使用不同策略

工程价值: ⭐⭐⭐⭐⭐ — 系统性梳理,适合作为推理引擎 KV cache 主题页的骨架 链接: https://arxiv.org/html/2603.20397v1 后续行动: 补充 2026-06 月新增的 AsymCache、TTKV;更新知识库 KV cache 主题页分类表


四、数据库系统 × AI(SIGMOD/VLDB 2026 精选)

🔴 Cortex AISQL:生产级 SQL × AI Engine(SIGMOD Companion 2026)

来源: arXiv:2511.07663 · SIGMOD Companion 2026(2026-05-31 印度班加罗尔) 可信度: 高——Snowflake Cortex 生产系统论文 核心观点: - 将 AI/ML 推理(image classification、NLP 等)直接嵌入 SQL 执行引擎 - 两种执行策略:AI_FILTER(在 SQL filter 中调用 AI 预测)和 AI_CLASSIFY(rewrite 为 multi-label classification,批量处理) - 优化策略:predicate reordering(AI predicate 与关系 predicate 的重排序);在语义 join → AI_CLASSIFY rewrite 优化中有 5.6× 加速 - 成本分解:AI 推理成本 vs 仓库积分(Warehouse Credits)分开计量

关键发现: - 谓词重排序对 AISQL 性能影响显著(speedup 曲线呈非线性) - 代价模型需要同时考虑 AI credits 和 Warehouse credits

工程价值: ⭐⭐⭐⭐⭐ — 代表了 2026 年数据库×AI 融合的主流方向(In-Database ML);适合作为 RAG/AI Database 主题页的高价值案例 链接: https://arxiv.org/pdf/2511.07663 后续行动: 关注 Snowflake Cortex AISQL 的生产规模数据;对比其他 In-Database AI 系统(MADLib、BlazeIt)


🟡 DBPlanBench:LLM 作为语义基数估计器优化查询计划

来源: Together AI Blog · 2026-04-03(基于 arXiv 研究) 可信度: 高——有开源 harness 和代码 核心观点: - 传统基数估计依赖统计启发式,在语义复杂查询上失效 - LLM 可作为语义基数估计器,纠正物理计划错误 - 结合紧凑计划序列化 + 进化 patch 搜索,降低执行时间和内存压力 - 开源 harness 支持复现

工程价值: ⭐⭐⭐⭐ — 与 Cortex AISQL 互补:从 SQL 层面引入 AI 优化执行计划 链接: https://together.ai/blog/using-llms-to-optimize-database-query-execution 后续行动: 评估在 PostgreSQL / ClickHouse 生态中的集成可行性


🟡 O³-LSM: disaggregated LSM-tree 三层 offloading(SIGMOD 2026)

来源: arXiv:2603.05439 · SIGMOD 2026 全文(清华/港科团队) 可信度: 高——full research paper 核心观点: - disaggregated(计算存储分离)架构下 LSM-tree 写入性能受限 - 提出三层 offloading 最大化写入吞吐:计算侧 + 内存侧 + 存储侧 - 支持 TPCx、AI 等现代工作负载

工程价值: ⭐⭐⭐⭐ — disaggregated storage 是 2026 云原生数据库趋势;与 RocksDB 生态直接相关 链接: https://arxiv.org/html/2603.05439 后续行动: 对比 TiKV/RocksDB 的 disaggregated 路线


五、TwELL:稀疏Transformer推理新格式(ICML 2026 · Modular/NVIDIA)

🔴 Sparser, Faster, Lighter Transformer Language Models

来源: Modular + NVIDIA · ICML 2026 可信度: 高——NVIDIA 官方 blog + 开源 CUDA kernels 核心观点: - 核心问题:FFN 层中 95%+ 激活值趋近于零(尤其 ReLU + mild L1 正则化),但传统稀疏格式引入不规则内存访问,开销抵消理论收益 - 提出 TwELL(Tile-wise ELLPACK):新稀疏打包格式,直接集成到 dense matmul kernel,不破坏执行效率 - 结合 hybrid representation 最小化激活体积 - 配套开源 CUDA kernels,融合多个稀疏 matmul

关键数据: - >20% 训练和推理加速(十亿参数规模) - peak memory 和 energy savings 更高

工程价值: ⭐⭐⭐⭐⭐ — FFN 稀疏化是 2026 MoE/dense 模型推理优化的重要方向;twEL + custom CUDA kernels 有直接生产价值 链接: https://www.linkedin.com/posts/modular-ai_open-source-llm-inference-engines-compared-activity-7449906123014385665-yMEz 后续行动: 关注 TwELL 与 vLLM/SGLang kernel 栈的集成;评估在稀疏 MoE 模型上的适用性


六、Substack 高价值条目(2026-06 精选)

🔴 State of AI(Nathan Benaich)· April 2026 Newsletter

来源: https://nathanbenaich.substack.com/p/state-of-ai-april-2026-newsletter 可信度: 高——行业知名 newsletter,AI 投资 + 技术双线覆盖 高价值内容:

TTT-Discover(Test-Time Training for Discovery): - 在 GPU kernel 优化上超过人类基准:在 GPUMode 竞赛中,AI 生成的 GPU kernel 比最强人类 entry 快 51% - 在 Erdős 最小重叠问题上 SOTA,比 AlphaEvolve 基线高 16× - 局限:需要连续 reward 信号,尚不支持稀疏/二元反馈

Meta-Harness: - 改变模型周围的 harness(控制模型在每步看到、存储、检索什么的代码)可产生 6× 性能差距 - Meta-Harness 通过 raw execution traces(高达 10M tokens 诊断信息)而非压缩摘要,自动优化 harness - TerminalBench-2 上 Haiku 4.5 agent 第一名(37.6%),Opus 4.6 agent 第二名(76.4%) - 关键消融:摘要实际上使性能下降

投资动态: Legora(法律 AI)$550M @ $5.55B · ElevenLabs(语音 AI)$500M @ $11B · MatX(AI 训练芯片)$500M · Runway(视频生成)$315M @ $5.3B

评价: 高价值行业洞察;TTT-Discover 和 Meta-Harness 是 Agentic AI + AutoML 交叉的里程碑 后续行动: 追踪 TTT-Discover 的开源复现;Meta-Harness 的 raw trace 方法值得在知识库 Agent 页专题


🟡 The AI Engineer(TheAIEngineer Substack)· vLLM vs SGLang vs TGI 2026

来源: https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt 可信度: 高——AI 工程社区专业 newsletter 高价值内容: - TGI(HuggingFace TGI)已正式进入维护模式——README 明确推荐迁移 vLLM/SGLang/llama.cpp - 生产迁移指南:OpenAI API 兼容性使 vLLM 迁移成本低 - 决策树:模型频繁切换 → vLLM;前缀密集 + 低延迟 → SGLang;单模型 + 极致吞吐 → TRT-LLM

评价: 工程选型必读;TGI 退役是 2026 上半年重要生态变化 链接: https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt


🟡 The Neural Maze · AI Systems Engineer Journey

来源: https://theneuralmaze.substack.com/p/welcome-to-the-ai-systems-engineer 可信度: 中高——工程教育型 newsletter 高价值内容: - AI Systems Engineer 定义:own the system that produces the decision,涵盖 XGBoost/ forecaster / recommender / RAG / agent 全链路 - RAG 的工程复杂度:demo 容易,生产难(chunking strategy、retrieval quality、hybrid search、query rewriting、reranking、hallucination detection、citation enforcement、evaluation harness) - ColPali(多向量检索)+ multimodal generator → 带 bounding box / page citation 的答案

评价: RAG 生产工程 checklist,适合作为知识库 RAG 主题页的补充


七、Hugging Face 趋势(W18–W24 · 2026-06)

🔴 HF Papers Week 2026-W18 高亮(Agentic + Systems)

来源: https://huggingface.co/papers/week/2026-W18 可信度: 高——AK 团队每日筛选

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond - 世界模型基础研究,Agentic AI 的 long-horizon 规划

From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company - 多 agent 组织为真实公司结构,autonomous agent coordination 新范式

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents - 智谱 GLM 多模态 foundation model for agent

ClawGym: A Scalable Framework for Building Effective Claw Agents - Claw agent benchmark + 训练框架

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs - 数据工程 × self-improving LLM,从 raw corpus 到 production 数据 pipeline

🔴 HF Daily Papers 2026-06-17 高亮(arXiv 2606 新文)

来源: https://huggingface.co/papers/date/2026-06-17 可信度:

arXiv ID 标题 亮点
2606.19341 Qwen(阿里巴巴) 多模态模型
2606.19338 InternLM(书生) 最新 InternLM 系列
2606.19005 6作者·通用 待进一步核验
2606.18943 Physics-IQ Verified(7作者) 科学推理验证
2606.18874 18作者(12 votes) 值得关注
2606.18375 28作者 大团队研究

后续行动: 优先精读 2606.19341(Qwen)和 2606.19338(InternLM);关注 2606.18375(大团队合作)


八、2026 LLM Engineering 生态全景(600+ 技术综述)

🔴 Aussie AI · LLM Inference Optimization: 600+ Techniques Survey(2026-06 更新)

来源: https://www.aussieai.com/blog/llm-inference-optimization · David Spuler Ph.D. 可信度: 中高——学术界视角的工程综述,持续更新 2026-06 新增技术: - Gated attentionPartial RoPE(p-RoPE)RoPE rescaling - KV shardingHybrid MoE(dense FFN) - Layerwise Pipelined Prefill-Decoding - KIVI attentionSnapKVK=V(KV sharing) - Prefill first-layer precomputationlast-layer FFN skipping - Infinite context / Context extension - Shallow prefillAlgebraic integer number system - KV pinning(system prompt 缓存)、KV shifting/reversal/correction/layer propagation - Whole layer fused kernelsThread block clusters(Blackwell/Rubin)

评价: 600+ 技术是知识库 Inference 系统页的极佳补充;建议作为参考文献索引,不作为精读文本 链接: https://www.aussieai.com/blog/llm-inference-optimization


九、MorphLLM · LLM Inference Optimization: Cut Cost & Latency at Every Layer(2026)

来源: https://www.morphllm.com/llm-inference-optimization 可信度: 中高——工程优化实操指南 核心要点: - Morph Compact: verbatim context compaction,33,000 tok/s,压缩 50-70%,适合 inline 前置每个 LLM 调用 - Model Routing: Haiku vs Sonnet 对分类/抽取任务降 12× 成本;生产路由通常降 2-5× - Draft latency > draft accuracy: 投机解码中 draft model 的延迟比准确率更重要 - Semantic Caching: AWS 实测 3-10× 成本节省(适合重复查询场景)

评价: 应用层优化指南,与系统层优化互补;适合作为 inference optimization 主题页的补充 链接: https://www.morphllm.com/llm-inference-optimization


📋 本次综合分类

分类 条目数 最高价值
database 4 Cortex AISQL(SIGMOD 2026)、DBPlanBench
backend 5 Fluid-Guided Scheduling、MC-SF、KV Cache Survey(ArXiv 2603.20397)
cloud-native 1 O³-LSM disaggregated LSM(SIGMOD 2026)
csdn 0 本次无高价值 CSDN 新条目(已覆盖来源质量更高)
reproduction 2 AsymCache + TTKV(Jun 19 简报已有,本轮补充理论框架)

📝 建议写入路径

  • /shared/research-kb/inbox/jay/2026-06-20-afternoon-briefing-inference-engine-llm-systems-db-2026.md ✅(本文)

🔖 建议更新主题页

  1. 推理引擎选型页(Inference Engines 2026)——补充 SGLang v0.5.13 + TGI 退役 + 四大引擎实测对比表
  2. KV-Cache 主题页——补充 Fluid-Guided + MC-SF 理论框架 + 四大范式综述表
  3. Agentic AI 页——补充 Meta-Harness raw traces 消融 + TTT-Discover benchmark 数据
  4. Database×AI 页——补充 Cortex AISQL + DBPlanBench + O³-LSM

✅ 是否需要精读/审稿

  • 精读候选: Fluid-Guided Scheduling(2504.11320)+ KV Cache Survey(2603.20397)+ Cortex AISQL
  • 审稿候选: 推理引擎 2026 选型总览(可入知识库主索引)
  • 主题页更新: KV-Cache 综述表、Inference Engines 选型决策树