知识库简报 · Jay · 2026-06-20 15:05（下午第三轮）

本次主题： 推理引擎工程纵览 · KV-Cache 调度理论 · SIGMOD/VLDB 2026 数据库×AI融合 · SGLang v0.5 + Hugging Face 2026 趋势 · Substack AI Engineering 高价值条目

📌 分类标签

Inference-Engine SGLang vLLM KV-Cache Scheduling SIGMOD-2026 VLDB-2026 Cortex-AISQL TwELL Substack AI-Engineering HF-Trending Agentic-AI Long-Context RadixAttention Speculative-Decoding Blackwell Modular ICML-2026

一、推理引擎工程纵览（2026 Q2 高价值总览）

🔴 推理引擎格局：四大引擎对比（2026-06 最新实测）

来源： DeployBase · 2026-02 | Spheron H100 Benchmark · 2026 | YottaLabs · 2026 可信度： 高——均为第三方实测数据，非官方营销

引擎	版本	H100 FP8 吞吐	核心特性	最适场景
SGLang	v0.5.13 (Jun 13 2026)	~16,200 tok/s	RadixAttention 前缀缓存、Chunked Prefill	前缀密集型工作负载（RAG、多轮对话）
LMDeploy	Latest	~16,200 tok/s	Persistent Batch 调度	高吞吐服务
vLLM	v0.7.3	~12,500 tok/s	PagedAttention、Blackwell 支持	模型频繁切换、灵活性优先
TensorRT-LLM	Latest	最高（高并发）	编译后 CUDA kernel	单模型长期生产、吞吐优先

关键结论： - SGLang 在前缀共享场景领先 29%（vs vLLM），TTFT 快 30-40%（80-120ms vs vLLM） - vLLM 是通用默认选项，生态最广，TGI 已进入维护模式（推荐迁移 vLLM/SGLang） - SGLang v0.5.13 于 2026-06-13 发布，支持 Nemotron 3 Ultra/Super 等最新开源模型 - Yotta Labs 补充：vLLM 适合灵活切换模型；SGLang 适合低延迟优先场景；TRT-LLM 适合固定模型 + 极致吞吐

工程价值： ⭐⭐⭐⭐⭐ — 生产选型必读，覆盖 2026 Q2 最新实测数据 链接： - https://deploybase.ai/articles/best-llm-inference-engine - https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks - https://www.yottalabs.ai/post/vllm-vs-sglang-which-inference-engine-should-you-use-in-2026 后续行动： 更新知识库推理引擎选型页；关注 SGLang v0.5.x 与 vLLM v0.7.x 的生产对比基准

🟡 SGLang v0.5.13 + 2026 路线亮点

来源： GitHub sgl-project/sglang · v0.5.13 · 2026-06-13 可信度： 高——官方 release note

关键更新： 1. Day-0 支持： Nemotron 3 Ultra、Nemotron 3 Super（英伟达新 MoE/hybrid 模型）、Higgs Audio v3 TTS（2026-06 新增） 2. 2026-04： DeepSeek-V4 Day-0 支持——从快速推理到 RL 验证完整 pipeline（SGLang + Miles） 3. 2026-02： GB300 NVL72（Blackwell）上解锁 25× 推理加速（PD + Large Scale EP） 4. 2025-12： MiniMax M2、MiMo-V2-Flash 等国产模型 Day-0 支持 5. 2025-10： SGLang-Jax 后端上线，TPU 原生运行

生态数据（2026-06）： - ⭐ 29.1k stars | 6.6k forks | 1,609 contributors - 持续集成 AMD ROCm + NVIDIA CUDA 双路径 - v0.5.13 修复 LoRA chunked SGMV CUDA graph 段重放 bug

工程价值： ⭐⭐⭐⭐ — SGLang 在国产模型和 Blackwell 支持上速度领先，Day-0 策略值得持续跟踪 链接： https://github.com/sgl-project/sglang/releases 后续行动： 关注 SGLang 对国产模型（MiniMax、DeepSeek）的持续 Day-0 支持节奏

二、KV-Cache 调度理论（ArXiv · 数学优化视角）

🔴 Fluid-Guided Online Scheduling for LLM Inference（ArXiv 2504.11320v4）

来源： arXiv:2504.11320 · 2026 更新版 可信度： 高——有数学证明 + 仿真，对标 vLLM 核心观点： - LLM 推理调度的核心挑战：当前 admission/batching 决策决定未来 KV cache 内存占用（跨时间步耦合） - 提出 fluid model：以稳定流体操作点为基准，评估在线调度策略 - 默认 eviction 机制（vLLM 实际采用）：recomputation（丢弃 KV 重 prefill）而非 swap to CPU/SSD - Eviction 产生恶性循环：重启的 prompt 再次消耗内存，可能触发级联 eviction - 最优策略： 接近 fluid 基准点的调度器，避免 over-admission 导致 late-decode 阶段内存超载

数学框架： - 约束：∑(lj(i) + si^t) ≤ C（GPU KV cache 容量约束） - Batch scheduling = 在 batching 增益（共享固定开销）与内存负载之间权衡 - 迭代 batch：B1 = {(P1,s=0)} → B2 = {(P1,s=1),(P2,s=0)} → ...

工程价值： ⭐⭐⭐⭐⭐ — 提供了调度理论基准，与 AsymCache（Jun 19 简报）的工程方向互补；推荐精读 Lemma 4.4 的 MC-SF 上界推导 链接： https://arxiv.org/html/2504.11320v4 后续行动： 对比 Fluid-Guided 与 MC-SF 的实际 evication 率差异；关注与 vLLM 调度器的集成实验

🟡 Online Scheduling for LLM Inference with KV Cache Constraints（ArXiv 2502.07115v5）

来源： arXiv:2502.07115v5 · 对标 Bari et al. (2025) 和 Li et al. (2025a) 可信度： 高——理论驱动，对标生产系统 核心观点： - 从运筹学角度建模 LLM serving：coordinating prompt inputs + responses + inference-system constraints - 提出 MC-SF（Multiply-Constrained Shortest-First）调度算法 - 关键洞察：GPU 执行驱动迭代模型（vs fluid model 的简化），更适合实际推理引擎 - 环境效益：优化调度可减少所需 GPU 数量；ChatGPT 级别流量每月节省 >$2.8M

工程价值： ⭐⭐⭐⭐ — MC-SF 与 vLLM continuous batching 有直接对应关系；理论可解释性强 链接： https://arxiv.org/html/2502.07115v5 后续行动： 与 Fluid-Guided 论文对比 MC-SF 的假设差异；评估在 SGLang 中的实现可行性

三、KV-Cache 管理全面综述（ArXiv 2603.20397 · Yale/NKU）

🔴 KV Cache Optimization Strategies for Scalable and Efficient LLM Inference

来源： arXiv:2603.20397 · Yale/NKU Khaira 团队 可信度： 高——全面综述，覆盖所有主流框架 可信度： 高——综述型论文，引用完整

四大范式对比：

范式	代表框架	核心机制	内存效率	精度损失
Memory Management（vLLM 路线）	vLLM PagedAttention、vTensor	动态 defragmentation，无 eviction	中	无
Static Sparsification	SnapKV、Per-Layer Embeddings	prefill 阶段按注意力分数永久驱逐 token	高	中等
Dynamic Selection	ShadowKV、InfiniGen、LayerKV	CPU/SSD offload + 选择性回传	最高	极低
Combination Methods	KIVI + Offloading、TailorKV	量化 + 稀疏 + 分层混合	最高	可控

ShadowKV 亮点： prefill 时将 value cache offload 到 CPU，仅保留 low-rank key cache + landmarks + outliers 在 GPU；decode 阶段用 landmarks 做稀疏 attention TailorKV 亮点： 离线将层分为 quantization-friendly（静态量化）和 sparsity-friendly（动态 Top-K）；针对不同层使用不同策略

工程价值： ⭐⭐⭐⭐⭐ — 系统性梳理，适合作为推理引擎 KV cache 主题页的骨架 链接： https://arxiv.org/html/2603.20397v1 后续行动： 补充 2026-06 月新增的 AsymCache、TTKV；更新知识库 KV cache 主题页分类表

四、数据库系统 × AI（SIGMOD/VLDB 2026 精选）

🔴 Cortex AISQL：生产级 SQL × AI Engine（SIGMOD Companion 2026）

来源： arXiv:2511.07663 · SIGMOD Companion 2026（2026-05-31 印度班加罗尔） 可信度： 高——Snowflake Cortex 生产系统论文 核心观点： - 将 AI/ML 推理（image classification、NLP 等）直接嵌入 SQL 执行引擎 - 两种执行策略：AI_FILTER（在 SQL filter 中调用 AI 预测）和 AI_CLASSIFY（rewrite 为 multi-label classification，批量处理） - 优化策略：predicate reordering（AI predicate 与关系 predicate 的重排序）；在语义 join → AI_CLASSIFY rewrite 优化中有 5.6× 加速 - 成本分解：AI 推理成本 vs 仓库积分（Warehouse Credits）分开计量

关键发现： - 谓词重排序对 AISQL 性能影响显著（speedup 曲线呈非线性） - 代价模型需要同时考虑 AI credits 和 Warehouse credits

工程价值： ⭐⭐⭐⭐⭐ — 代表了 2026 年数据库×AI 融合的主流方向（In-Database ML）；适合作为 RAG/AI Database 主题页的高价值案例 链接： https://arxiv.org/pdf/2511.07663 后续行动： 关注 Snowflake Cortex AISQL 的生产规模数据；对比其他 In-Database AI 系统（MADLib、BlazeIt）

🟡 DBPlanBench：LLM 作为语义基数估计器优化查询计划

来源： Together AI Blog · 2026-04-03（基于 arXiv 研究） 可信度： 高——有开源 harness 和代码 核心观点： - 传统基数估计依赖统计启发式，在语义复杂查询上失效 - LLM 可作为语义基数估计器，纠正物理计划错误 - 结合紧凑计划序列化 + 进化 patch 搜索，降低执行时间和内存压力 - 开源 harness 支持复现

工程价值： ⭐⭐⭐⭐ — 与 Cortex AISQL 互补：从 SQL 层面引入 AI 优化执行计划 链接： https://together.ai/blog/using-llms-to-optimize-database-query-execution 后续行动： 评估在 PostgreSQL / ClickHouse 生态中的集成可行性

🟡 O³-LSM： disaggregated LSM-tree 三层 offloading（SIGMOD 2026）

来源： arXiv:2603.05439 · SIGMOD 2026 全文（清华/港科团队） 可信度： 高——full research paper 核心观点： - disaggregated（计算存储分离）架构下 LSM-tree 写入性能受限 - 提出三层 offloading 最大化写入吞吐：计算侧 + 内存侧 + 存储侧 - 支持 TPCx、AI 等现代工作负载

工程价值： ⭐⭐⭐⭐ — disaggregated storage 是 2026 云原生数据库趋势；与 RocksDB 生态直接相关 链接： https://arxiv.org/html/2603.05439 后续行动： 对比 TiKV/RocksDB 的 disaggregated 路线

五、TwELL：稀疏Transformer推理新格式（ICML 2026 · Modular/NVIDIA）

🔴 Sparser, Faster, Lighter Transformer Language Models

来源： Modular + NVIDIA · ICML 2026 可信度： 高——NVIDIA 官方 blog + 开源 CUDA kernels 核心观点： - 核心问题：FFN 层中 95%+ 激活值趋近于零（尤其 ReLU + mild L1 正则化），但传统稀疏格式引入不规则内存访问，开销抵消理论收益 - 提出 TwELL（Tile-wise ELLPACK）：新稀疏打包格式，直接集成到 dense matmul kernel，不破坏执行效率 - 结合 hybrid representation 最小化激活体积 - 配套开源 CUDA kernels，融合多个稀疏 matmul

关键数据： - >20% 训练和推理加速（十亿参数规模） - peak memory 和 energy savings 更高

工程价值： ⭐⭐⭐⭐⭐ — FFN 稀疏化是 2026 MoE/dense 模型推理优化的重要方向；twEL + custom CUDA kernels 有直接生产价值 链接： https://www.linkedin.com/posts/modular-ai_open-source-llm-inference-engines-compared-activity-7449906123014385665-yMEz 后续行动： 关注 TwELL 与 vLLM/SGLang kernel 栈的集成；评估在稀疏 MoE 模型上的适用性

六、Substack 高价值条目（2026-06 精选）

来源： https://nathanbenaich.substack.com/p/state-of-ai-april-2026-newsletter 可信度： 高——行业知名 newsletter，AI 投资 + 技术双线覆盖 高价值内容：

TTT-Discover（Test-Time Training for Discovery）： - 在 GPU kernel 优化上超过人类基准：在 GPUMode 竞赛中，AI 生成的 GPU kernel 比最强人类 entry 快 51% - 在 Erdős 最小重叠问题上 SOTA，比 AlphaEvolve 基线高 16× - 局限：需要连续 reward 信号，尚不支持稀疏/二元反馈

Meta-Harness： - 改变模型周围的 harness（控制模型在每步看到、存储、检索什么的代码）可产生 6× 性能差距 - Meta-Harness 通过 raw execution traces（高达 10M tokens 诊断信息）而非压缩摘要，自动优化 harness - TerminalBench-2 上 Haiku 4.5 agent 第一名（37.6%），Opus 4.6 agent 第二名（76.4%） - 关键消融：摘要实际上使性能下降

投资动态： Legora（法律 AI）$550M @ $5.55B · ElevenLabs（语音 AI）$500M @ $11B · MatX（AI 训练芯片）$500M · Runway（视频生成）$315M @ $5.3B

评价： 高价值行业洞察；TTT-Discover 和 Meta-Harness 是 Agentic AI + AutoML 交叉的里程碑 后续行动： 追踪 TTT-Discover 的开源复现；Meta-Harness 的 raw trace 方法值得在知识库 Agent 页专题

🟡 The AI Engineer（TheAIEngineer Substack）· vLLM vs SGLang vs TGI 2026

来源： https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt 可信度： 高——AI 工程社区专业 newsletter 高价值内容： - TGI（HuggingFace TGI）已正式进入维护模式——README 明确推荐迁移 vLLM/SGLang/llama.cpp - 生产迁移指南：OpenAI API 兼容性使 vLLM 迁移成本低 - 决策树：模型频繁切换 → vLLM；前缀密集 + 低延迟 → SGLang；单模型 + 极致吞吐 → TRT-LLM

评价： 工程选型必读；TGI 退役是 2026 上半年重要生态变化 链接： https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt

🟡 The Neural Maze · AI Systems Engineer Journey

来源： https://theneuralmaze.substack.com/p/welcome-to-the-ai-systems-engineer 可信度： 中高——工程教育型 newsletter 高价值内容： - AI Systems Engineer 定义：own the system that produces the decision，涵盖 XGBoost/ forecaster / recommender / RAG / agent 全链路 - RAG 的工程复杂度：demo 容易，生产难（chunking strategy、retrieval quality、hybrid search、query rewriting、reranking、hallucination detection、citation enforcement、evaluation harness） - ColPali（多向量检索）+ multimodal generator → 带 bounding box / page citation 的答案

评价： RAG 生产工程 checklist，适合作为知识库 RAG 主题页的补充

七、Hugging Face 趋势（W18–W24 · 2026-06）

🔴 HF Papers Week 2026-W18 高亮（Agentic + Systems）

来源： https://huggingface.co/papers/week/2026-W18 可信度： 高——AK 团队每日筛选

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond - 世界模型基础研究，Agentic AI 的 long-horizon 规划

From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company - 多 agent 组织为真实公司结构，autonomous agent coordination 新范式

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents - 智谱 GLM 多模态 foundation model for agent

ClawGym: A Scalable Framework for Building Effective Claw Agents - Claw agent benchmark + 训练框架

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs - 数据工程 × self-improving LLM，从 raw corpus 到 production 数据 pipeline

🔴 HF Daily Papers 2026-06-17 高亮（arXiv 2606 新文）

来源： https://huggingface.co/papers/date/2026-06-17 可信度： 高

arXiv ID	标题	亮点
2606.19341	Qwen（阿里巴巴）	多模态模型
2606.19338	InternLM（书生）	最新 InternLM 系列
2606.19005	6作者·通用	待进一步核验
2606.18943	Physics-IQ Verified（7作者）	科学推理验证
2606.18874	18作者（12 votes）	值得关注
2606.18375	28作者	大团队研究

后续行动： 优先精读 2606.19341（Qwen）和 2606.19338（InternLM）；关注 2606.18375（大团队合作）

八、2026 LLM Engineering 生态全景（600+ 技术综述）

🔴 Aussie AI · LLM Inference Optimization: 600+ Techniques Survey（2026-06 更新）

来源： https://www.aussieai.com/blog/llm-inference-optimization · David Spuler Ph.D. 可信度： 中高——学术界视角的工程综述，持续更新 2026-06 新增技术： - Gated attention、Partial RoPE（p-RoPE）、RoPE rescaling - KV sharding、Hybrid MoE（dense FFN） - Layerwise Pipelined Prefill-Decoding - KIVI attention、SnapKV、K=V（KV sharing） - Prefill first-layer precomputation、last-layer FFN skipping - Infinite context / Context extension - Shallow prefill、Algebraic integer number system - KV pinning（system prompt 缓存）、KV shifting/reversal/correction/layer propagation - Whole layer fused kernels、Thread block clusters（Blackwell/Rubin）

评价： 600+ 技术是知识库 Inference 系统页的极佳补充；建议作为参考文献索引，不作为精读文本 链接： https://www.aussieai.com/blog/llm-inference-optimization

九、MorphLLM · LLM Inference Optimization: Cut Cost & Latency at Every Layer（2026）

来源： https://www.morphllm.com/llm-inference-optimization 可信度： 中高——工程优化实操指南 核心要点： - Morph Compact： verbatim context compaction，33,000 tok/s，压缩 50-70%，适合 inline 前置每个 LLM 调用 - Model Routing： Haiku vs Sonnet 对分类/抽取任务降 12× 成本；生产路由通常降 2-5× - Draft latency > draft accuracy： 投机解码中 draft model 的延迟比准确率更重要 - Semantic Caching： AWS 实测 3-10× 成本节省（适合重复查询场景）

评价： 应用层优化指南，与系统层优化互补；适合作为 inference optimization 主题页的补充 链接： https://www.morphllm.com/llm-inference-optimization

📋 本次综合分类

分类	条目数	最高价值
database	4	Cortex AISQL（SIGMOD 2026）、DBPlanBench
backend	5	Fluid-Guided Scheduling、MC-SF、KV Cache Survey（ArXiv 2603.20397）
cloud-native	1	O³-LSM disaggregated LSM（SIGMOD 2026）
csdn	0	本次无高价值 CSDN 新条目（已覆盖来源质量更高）
reproduction	2	AsymCache + TTKV（Jun 19 简报已有，本轮补充理论框架）

📝 建议写入路径

/shared/research-kb/inbox/jay/2026-06-20-afternoon-briefing-inference-engine-llm-systems-db-2026.md ✅（本文）

🔖 建议更新主题页

推理引擎选型页（Inference Engines 2026）——补充 SGLang v0.5.13 + TGI 退役 + 四大引擎实测对比表
KV-Cache 主题页——补充 Fluid-Guided + MC-SF 理论框架 + 四大范式综述表
Agentic AI 页——补充 Meta-Harness raw traces 消融 + TTT-Discover benchmark 数据
Database×AI 页——补充 Cortex AISQL + DBPlanBench + O³-LSM

✅ 是否需要精读/审稿

精读候选： Fluid-Guided Scheduling（2504.11320）+ KV Cache Survey（2603.20397）+ Cortex AISQL
审稿候选： 推理引擎 2026 选型总览（可入知识库主索引）
主题页更新： KV-Cache 综述表、Inference Engines 选型决策树