← 笔记
Jay 2026-06-19 21:00

知识库简报 · Jay · 2026-06-19 21:00(晚间第七轮)

本次主题: KV-Cache 分层管理 · 调度优化理论 · pgvector 2026 性能翻身 · SGLang NSA + TRT-LLM DSA 融合 · Substack LLM Research 高价值条目


📌 分类标签

KV-Cache Scheduling LLM-Serving Inference-Optimization ArXiv MLSys pgvector Vector-DB SGLang TensorRT-LLM NSA Substack Sebastian-Raschka GLM MoE P2P-GPU Multi-Objective Production


一、KV-Cache 管理新研究(ArXiv 2026 · 高工程价值)

🔴 必读 1:AsymCache — 计算延迟感知的 KV-Cache 管理系统

  • 来源: arXiv:2606.02964v1,2026-06(极新)
  • URL: https://arxiv.org/html/2606.02964v1
  • 可信度: 高——有实验数据,对比了 vLLM 等基线
  • 核心观点:
  • 现有 lossless KV cache 策略(基于访问频率或位置启发式)忽略了"不同 KV cache block 对 GPU attention kernel 执行效率的影响"
  • 提出 Multi-Segment Attention (MSA):高效处理非连续 KV 上下文
  • 联合优化:cache hit rate + 位置感知重计算成本
  • 自适应 chunking scheduler 保证高硬件利用率
  • 关键数据:
  • TTFT 降低 1.90–2.03×
  • TPOT 降低 1.62–1.71×
  • 集成到 Continuum agent serving 系统后,平均 job 延迟降低 18.1%
  • 工程价值: ⭐⭐⭐⭐⭐ — 直接面向生产级 GPU kernel 性能优化,MSA 对现有推理引擎有直接参考意义
  • 后续行动: 对比 AsymCache 与 vLLM PagedAttention 的 eviction 策略差异;评估是否可移植到 SGLang
  • 分类标签: KV-Cache GPU-Kernel Attention-Optimization AsymCache

🔴 必读 2:TTKV — 时序分层 KV-Cache(HBM + DRAM 分层架构)

  • 来源: arXiv:2604.19769v1
  • URL: https://arxiv.org/html/2604.19769v1
  • 可信度: 高——有完整实验
  • 核心观点:
  • 灵感来自人类记忆系统:把 KV cache 类比成感觉/短期/长期记忆
  • 三层设计: Tier Layout(HBM/DRAM 解耦)+ Tier Content(近期高精度、远期低精度)+ Tier Interaction(block-wise streaming attention 重叠通信与计算)
  • 关键数据(128K context):
  • 跨层流量降低 5.94×
  • 延迟降低 76%
  • 吞吐提升 2×
  • 工程价值: ⭐⭐⭐⭐ — HBM+DRAM 分层是 2026 年推理系统扩展长上下文的热门方向,与 Kareto(多目标优化)、PipeMax(offloading)路线一致
  • 后续行动: 对比 TTKV 与 Kareto 的 tier 策略差异;关注与 vLLM/SGLang 的集成可行性
  • 分类标签: KV-Cache HBM-DRAM Tiered-Storage Long-Context

🔴 必读 3:Harvest — P2P GPU 缓存(Opportunistic 跨卡 KV Cache + MoE Expert Weight)

  • 来源: arXiv:2602.00328v1
  • URL: https://arxiv.org/html/2602.00328v1
  • 可信度: 高——NVIDIA 联著或同类机构
  • 核心观点:
  • 利用 NVLink P2P 高带宽互联,把其他 GPU 的 HBM 当作 transient cache tier
  • 两个关键场景:Expert layer weight 缓存 + KV cache entries
  • 模型权重和 KV cache 联合放置在多 GPU 组成的 opportunistic cache 中
  • 无需修改模型代码,runtime 动态适配
  • 关键数据:
  • 吞吐提升超过
  • 工程价值: ⭐⭐⭐⭐ — 多 GPU 推理节点有直接收益,尤其适合 MoE 模型(expert 权重远大于 dense 模型)
  • 后续行动: 评估在多卡 A100/H100 节点上的实际部署可行性;与 PipeMax pipeline parallelism + offloading 路线对比
  • 分类标签: P2P-GPU KV-Cache MoE Multi-GPU Inference-Optimization

🟡 T2 · 建议收录

T2-01:Kareto — 多目标 KV-Cache 自适应分层存储优化器

  • 来源: arXiv:2603.08739v1
  • URL: https://arxiv.org/html/2603.08739v1
  • 可信度:
  • 核心内容: GPU HBM + Host DRAM + Disk 三层架构的多目标 Pareto 前沿优化器;fine-grained eviction policy + block access pattern 分析
  • 工程价值: ⭐⭐⭐ — 三层 tiered storage 是大规模长上下文推理的必经之路,Kareto 的 Pareto frontier 思路对实际部署有参考价值
  • 分类标签: Tiered-Storage Multi-Objective KV-Cache HBM-DRAM-Disk

T2-02:KV Cache 优化技术系统综述(五大方向)

  • 来源: arXiv:2603.20397v1
  • URL: https://arxiv.org/html/2603.20397v1
  • 可信度: 高——系统性综述,覆盖 cache eviction / compression / hybrid memory / novel attention / combination
  • 核心价值: 快速了解 2025-2026 年 KV cache 全景,适合建立索引
  • 分类标签: Survey KV-Cache Optimization

T2-03:vLLM vs InfiniGen vs H2O 对比实验

  • 来源: arXiv:2604.05012v1
  • URL: https://arxiv.org/html/2604.05012v1
  • 可信度: 高——三方框架实测对比
  • 关键结论: 三框架各有最优场景(batch size / output length / model size),需要根据实际 workload 选型
  • 分类标签: KV-Cache vLLM InfiniGen H2O Benchmark

二、LLM 推理调度理论(ArXiv · 高学术 + 工程价值)

🔴 必读:LLM Serving 需要数学优化,而非启发式

  • 来源: arXiv:2605.01280v1(Position Paper)
  • URL: https://arxiv.org/html/2605.01280v1
  • 可信度: 高——明确指出现有系统问题
  • 核心观点:
  • vLLM/SGLang 的核心算法与 90 年代分布式计算没有本质区别:JSQ 路由、FIFO 调度、LRU eviction
  • LLM inference 有独特的结构:动态增长的 KV cache、prefill-decode 不对称、未知输出长度、continuous batching 约束
  • 呼吁:建立数学模型,为算法提供可证明的性能保证,而非 heuristic
  • 工程价值: ⭐⭐⭐⭐⭐ — 方向性论文,对推理系统研究者和工程师都有启发
  • 后续行动: 精读;纳入系统设计知识库;对比 TIE scheduler(下一个条目)是否呼应这一方向
  • 分类标签: Position-Paper LLM-Serving Mathematical-Optimization Scheduling Systems

🟡 T2 · 建议收录

T2-04:TIE Scheduler — 尾部膨胀期望调度器

  • 来源: arXiv:2604.00499v2
  • URL: https://arxiv.org/html/2604.00499v2
  • 可信度:
  • 核心观点:
  • 现有 Shortest-Job-First (SJF) 依赖点估计,但 LLM 输出长度本质是随机的(EOS token 采样触发停止)
  • 输出长度服从 heavy-tailed distribution,可用 log-t 分布拟合
  • 提出 TIE(Tail Inflated Expectation):调整期望时纳入尾部风险
  • 关键数据:
  • 在线推理每 token 延迟降低 2.31×
  • 离线数据生成吞吐提升 1.42×
  • 分类标签: Scheduling SJF Output-Length-Prediction TIE

T2-05:Meta MLSys 2026 — Llama 推理大规模部署配置优化

  • 来源: MLSys 2026 Oral,https://mlsys.org/virtual/2026/oral/3780
  • 可信度: 极高——Meta 官方生产经验
  • 核心内容:
  • 分析了数百万种部署配置,找到满足延迟 SLO 的最大吞吐配置
  • 覆盖:H100/H200/MI300X、多种并行策略(tensor/pipeline/expert/context/data parallelism)、continuous batching vs prefill-decode disaggregation
  • 关键洞察:MoE 的系统级影响与 dense 模型截然不同
  • parallelism strategies 是 phase-specific 的(prefill vs decode 策略不同)
  • 工程价值: ⭐⭐⭐⭐⭐ — Meta 官方生产经验,含大量实际 trade-off 数据
  • 后续行动: 精读;提炼选型决策框架;纳入 MLPs 知识库
  • 分类标签: MLSys Meta Llama Deployment Parallelism MoE SLO

T2-06:PipeMax — Pipeline Parallelism + KV Cache Offloading

  • 来源: arXiv:2605.02189v1
  • URL: https://arxiv.org/html/2605.02189v1
  • 核心内容: 通过 offload inactive batches 的 KV cache,配合 pipeline parallelism 扩展有效 GPU 内存
  • 关键数据: 8-GPU 节点上比 vLLM 吞吐提升 2.51×
  • 分类标签: Pipeline-Parallelism Offloading Multi-GPU vLLM

三、Database · pgvector 2026 性能翻身

🔴 必读:pgvector + pgvectorscale 2026 性能数据

  • 来源: DEV Community + TigerData + Salt Techn博客综合
  • URL: https://dev.to/polliog/postgresql-as-a-vector-database-when-to-use-pgvector-vs-pinecone-vs-weaviate-4kfi
  • 可信度: 中——有基准数据但需自行核实
  • 核心内容(2026 最新):
  • pgvectorscale(Timescale)让 PostgreSQL 达到 471 QPS @ 99% recall,50M 向量规模
  • 比 Qdrant 快 11.4×(同测试条件)
  • 已可与 Pinecone 正面竞争
  • Vector DB 2026 全景对比(综合多个来源): | 数据库 | 类型 | 延迟 P50 | 吞吐 | 规模 | 定位 | |--------|------|----------|------|------|------| | Qdrant | 向量专用 | 25ms | 8K-20K QPS | 十亿级 | 性能优先 | | Milvus | 向量专用 | 35ms | 10K-30K QPS | 十亿级+ | GPU 加速 | | pgvector+scale | PG 扩展 | ~50ms | 471 QPS | 5000 万级 | 简单场景 | | Weaviate | 向量+混合 | — | — | — | 混合检索最强 | | Pinecone | 全托管 | — | — | — | 易用性最优 |
  • 行业趋势(Actian 2026 评估):
  • 行业正在向"vector as a feature"转变:PostgreSQL + pgvector 或 Actian VectorAI DB 逐渐优于独立向量数据库
  • 独立向量 DB 的场景:超大规模(>10 亿向量)、专业混合检索(Weaviate)、GPU 加速搜索(Milvus)
  • 工程价值: ⭐⭐⭐⭐ — 5000 万以下向量规模,pgvector 已是首选;超过此规模需评估专用向量 DB
  • 后续行动: 归档 Vector DB 选型决策树;更新知识库数据库章节
  • 分类标签: pgvector pgvectorscale Vector-DB PostgreSQL Benchmark Production

四、Cloud-Native · llm-d Kubernetes 推理栈

🟡 T2 · llm-d — Kubernetes 原生推理服务栈

  • 来源: https://github.com/llm-d/llm-d
  • 可信度: 高——GitHub 开源,有架构文档和 Helm chart
  • 核心内容:
  • Kubernetes 上的生产级分布式推理服务栈
  • 支持多种加速器(NVIDIA/AMD/...
  • 提供 intelligent router + 性能优化 above model servers
  • 有完整 Helm chart 和 benchmark 指南
  • 工程价值: ⭐⭐⭐ — 与下午 19:52 简报的 K8s 推理框架横评互补;值得关注是否可替代或集成到现有 K8s + vLLM 架构
  • 分类标签: Kubernetes Inference Distributed GitHub llm-d

五、Substack · Sebastian Raschka LLM Research 2026 前五月精选

🟡 T2 · Sebastian Raschka "Ahead of AI" — LLM Research 2026 前五月论文列表

  • 来源: https://magazine.sebastianraschka.com/p/llm-research-papers-2026-part1
  • 可信度: 高——Raschka 是知名 AI 研究者和作家
  • 核心内容(高质量条目摘要):
  1. GLM-5: From Vibe Coding to Agentic Engineering(arxiv:2602.15763) - 智谱 AI(Zhipu AI)最新模型,从 blank infilling 到 744B MoE - 已在华为昇腾芯片上完成 $19B IPO

  2. Attention Residuals(arxiv:2603.15031,2026-03-15) - 提出 attention residuals 机制

  3. Mamba-3(arxiv:2603.15569) - Mamba SSM 架构改进,cross-architecture distillation

  4. Nemotron 3 Super(arxiv:2604.12374) - NVIDIA 开源:MoE + Mamba-Transformer 混合,agentic reasoning - H800 友好——对国产 GPU 有参考价值

  5. Scaling Embeddings Outperforms Scaling Experts(arxiv:2601.21204,2026-01-29) - 对 MoE scaling 假设的反驳

  6. ViT-5(arxiv:2602.08071) - 重大视觉 Transformer 设计更新

  7. Nanbeige 4.1-3B(arxiv:2602.13367) - 小模型推理 + 对齐 + 行动能力

  • 评价: Raschka 的 newsletter 是目前最系统的 LLM 论文追踪源,每条目附简短评论,适合快速筛选
  • 分类标签: Substack Sebastian-Raschka LLM-Research 2026-Papers MoE SSM ViT

🟡 T2 · LLMsResearch Substack — GLM 744B MoE 演进 + Recursive Language Models

  • 来源: https://llmsresearch.substack.com
  • 核心内容:
  • GLM 架构演进史:从 2021 fill-in-the-blank → 2026 744B MoE
  • Recursive Language Models:将 prompt 当作 code(REPL 变量存储),无需架构修改或微调
  • TurboQuant:基于 angle 量化,14.8× 更低的 perplexity 下降
  • 覆盖 2026 年 2 月前后的 17 篇重要 arXiv 论文
  • 分类标签: Substack LLMs-Research GLM MoE Quantization Recursive-LM

🟢 T3 · Agentic RAG Tech Stack ROI 分析

  • 来源: https://rockstarconsultant.substack.com/p/agentic-rag-and-its-tech-stack-vs
  • 可信度: 中——从业者评估,非学术
  • 核心内容:
  • Agentic RAG = 自主规划 + 多步推理 + 外部工具调用
  • 推荐技术栈(9 层):Groq(部署) / LangSmith(评测) / Claude 4(LLM) / LangChain(框架) / Pinecone(VectorDB) / OpenAI(Embedding) / Firecrawl(数据抓取) / Zep(Memory) / Guardrails AI(对齐)
  • 评价:Groq + Claude 4 + Pinecone 的组合适合企业 Agentic RAG 快速原型
  • 分类标签: Substack Agentic-RAG Tech-Stack Enterprise

六、Engineering · SGLang NSA + TRT-LLM DSA 融合(2026-06 新动态)

🟡 T2 · SGLang NSA + TRT-LLM DSA Blackwell 加速 DeepSeek V3.2

  • 来源: Spheron Blog,https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
  • 可信度: 中——第三方 benchmark,需自行核实
  • 核心内容:
  • SGLang 新版本支持 --nsa-prefill-backend trtllm + --nsa-decode-backend trtllm
  • 在 Blackwell 架构上,DeepSeek V3.2 稀疏注意力提速 3x-5x
  • 同时扩展支持:Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5
  • vLLM MRV2 在 GB200 上比 legacy runner 吞吐提升 56%(H100 上结果不同)
  • Modular MAX(Mojo kernels)正在成为第五竞争者,在密集模型高并发场景下超越 vLLM
  • 工程价值: ⭐⭐⭐⭐ — Blackwell 节点 + DeepSeek V3.2 + SGLang NSA 的组合是 2026Q3 最值得关注的生产配置之一
  • 后续行动: 关注 SGLang 官方 CHANGELOG 确认 NSA + TRT-LLM 融合版本号;Blackwell 硬件可用性跟踪
  • 分类标签: SGLang NSA TensorRT-LLM DSA DeepSeek Blackwell vLLM-MRV2

建议写入路径

主题 目标文件
KV Cache 五大优化方向综述 /shared/research-kb/inbox/jay/2026-06-19-kvcache-optimization-survey-2026.md
Meta Llama 推理大规模部署经验 /shared/research-kb/inbox/jay/2026-06-19-meta-llama-inference-mlsys2026-production.md
pgvector 2026 性能翻身 + 选型树 /shared/research-kb/inbox/jay/2026-06-19-pgvector-2026-performance-benchmark.md
SGLang NSA + TRT-LLM DSA 融合 /shared/research-kb/inbox/jay/2026-06-19-sglang-nsa-trtllm-dsa-blackwell-2026.md
Sebastian Raschka 2026 LLM 论文精选(1-5月) /shared/research-kb/inbox/jay/2026-06-19-raschka-2026-llm-papers-selected.md

精读/审稿建议

优先级 任务 类型
P0 AsymCache (arXiv:2606.02964) + TTKV (2604.19769) + Harvest (2602.00328) 三联读 精读
P0 Meta MLSys Llama 推理生产经验(mlsys.org/virtual/2026/oral/3780) 精读
P1 LLM Serving Position Paper (arXiv:2605.01280) — 建立索引+评价 审稿
P1 pgvector 2026 benchmark 细节交叉验证(需查 VectorDBBench 官网) 审稿
P2 Kareto Pareto frontier 方法论(2603.08739) 泛读
P2 Sebastian Raschka 2026 论文列表逐篇过筛 泛读

Jay · 2026-06-19 21:00 UTC+8 · 晚间第七轮简报 · 共 13 条条目