知识库简报 · Jay · 2026-06-19 21:00(晚间第七轮)
本次主题: KV-Cache 分层管理 · 调度优化理论 · pgvector 2026 性能翻身 · SGLang NSA + TRT-LLM DSA 融合 · Substack LLM Research 高价值条目
📌 分类标签
KV-Cache Scheduling LLM-Serving Inference-Optimization ArXiv MLSys pgvector Vector-DB SGLang TensorRT-LLM NSA Substack Sebastian-Raschka GLM MoE P2P-GPU Multi-Objective Production
一、KV-Cache 管理新研究(ArXiv 2026 · 高工程价值)
🔴 必读 1:AsymCache — 计算延迟感知的 KV-Cache 管理系统
- 来源: arXiv:2606.02964v1,2026-06(极新)
- URL: https://arxiv.org/html/2606.02964v1
- 可信度: 高——有实验数据,对比了 vLLM 等基线
- 核心观点:
- 现有 lossless KV cache 策略(基于访问频率或位置启发式)忽略了"不同 KV cache block 对 GPU attention kernel 执行效率的影响"
- 提出 Multi-Segment Attention (MSA):高效处理非连续 KV 上下文
- 联合优化:cache hit rate + 位置感知重计算成本
- 自适应 chunking scheduler 保证高硬件利用率
- 关键数据:
- TTFT 降低 1.90–2.03×
- TPOT 降低 1.62–1.71×
- 集成到 Continuum agent serving 系统后,平均 job 延迟降低 18.1%
- 工程价值: ⭐⭐⭐⭐⭐ — 直接面向生产级 GPU kernel 性能优化,MSA 对现有推理引擎有直接参考意义
- 后续行动: 对比 AsymCache 与 vLLM PagedAttention 的 eviction 策略差异;评估是否可移植到 SGLang
- 分类标签:
KV-CacheGPU-KernelAttention-OptimizationAsymCache
🔴 必读 2:TTKV — 时序分层 KV-Cache(HBM + DRAM 分层架构)
- 来源: arXiv:2604.19769v1
- URL: https://arxiv.org/html/2604.19769v1
- 可信度: 高——有完整实验
- 核心观点:
- 灵感来自人类记忆系统:把 KV cache 类比成感觉/短期/长期记忆
- 三层设计: Tier Layout(HBM/DRAM 解耦)+ Tier Content(近期高精度、远期低精度)+ Tier Interaction(block-wise streaming attention 重叠通信与计算)
- 关键数据(128K context):
- 跨层流量降低 5.94×
- 延迟降低 76%
- 吞吐提升 2×
- 工程价值: ⭐⭐⭐⭐ — HBM+DRAM 分层是 2026 年推理系统扩展长上下文的热门方向,与 Kareto(多目标优化)、PipeMax(offloading)路线一致
- 后续行动: 对比 TTKV 与 Kareto 的 tier 策略差异;关注与 vLLM/SGLang 的集成可行性
- 分类标签:
KV-CacheHBM-DRAMTiered-StorageLong-Context
🔴 必读 3:Harvest — P2P GPU 缓存(Opportunistic 跨卡 KV Cache + MoE Expert Weight)
- 来源: arXiv:2602.00328v1
- URL: https://arxiv.org/html/2602.00328v1
- 可信度: 高——NVIDIA 联著或同类机构
- 核心观点:
- 利用 NVLink P2P 高带宽互联,把其他 GPU 的 HBM 当作 transient cache tier
- 两个关键场景:Expert layer weight 缓存 + KV cache entries
- 模型权重和 KV cache 联合放置在多 GPU 组成的 opportunistic cache 中
- 无需修改模型代码,runtime 动态适配
- 关键数据:
- 吞吐提升超过 2×
- 工程价值: ⭐⭐⭐⭐ — 多 GPU 推理节点有直接收益,尤其适合 MoE 模型(expert 权重远大于 dense 模型)
- 后续行动: 评估在多卡 A100/H100 节点上的实际部署可行性;与 PipeMax pipeline parallelism + offloading 路线对比
- 分类标签:
P2P-GPUKV-CacheMoEMulti-GPUInference-Optimization
🟡 T2 · 建议收录
T2-01:Kareto — 多目标 KV-Cache 自适应分层存储优化器
- 来源: arXiv:2603.08739v1
- URL: https://arxiv.org/html/2603.08739v1
- 可信度: 高
- 核心内容: GPU HBM + Host DRAM + Disk 三层架构的多目标 Pareto 前沿优化器;fine-grained eviction policy + block access pattern 分析
- 工程价值: ⭐⭐⭐ — 三层 tiered storage 是大规模长上下文推理的必经之路,Kareto 的 Pareto frontier 思路对实际部署有参考价值
- 分类标签:
Tiered-StorageMulti-ObjectiveKV-CacheHBM-DRAM-Disk
T2-02:KV Cache 优化技术系统综述(五大方向)
- 来源: arXiv:2603.20397v1
- URL: https://arxiv.org/html/2603.20397v1
- 可信度: 高——系统性综述,覆盖 cache eviction / compression / hybrid memory / novel attention / combination
- 核心价值: 快速了解 2025-2026 年 KV cache 全景,适合建立索引
- 分类标签:
SurveyKV-CacheOptimization
T2-03:vLLM vs InfiniGen vs H2O 对比实验
- 来源: arXiv:2604.05012v1
- URL: https://arxiv.org/html/2604.05012v1
- 可信度: 高——三方框架实测对比
- 关键结论: 三框架各有最优场景(batch size / output length / model size),需要根据实际 workload 选型
- 分类标签:
KV-CachevLLMInfiniGenH2OBenchmark
二、LLM 推理调度理论(ArXiv · 高学术 + 工程价值)
🔴 必读:LLM Serving 需要数学优化,而非启发式
- 来源: arXiv:2605.01280v1(Position Paper)
- URL: https://arxiv.org/html/2605.01280v1
- 可信度: 高——明确指出现有系统问题
- 核心观点:
- vLLM/SGLang 的核心算法与 90 年代分布式计算没有本质区别:JSQ 路由、FIFO 调度、LRU eviction
- LLM inference 有独特的结构:动态增长的 KV cache、prefill-decode 不对称、未知输出长度、continuous batching 约束
- 呼吁:建立数学模型,为算法提供可证明的性能保证,而非 heuristic
- 工程价值: ⭐⭐⭐⭐⭐ — 方向性论文,对推理系统研究者和工程师都有启发
- 后续行动: 精读;纳入系统设计知识库;对比 TIE scheduler(下一个条目)是否呼应这一方向
- 分类标签:
Position-PaperLLM-ServingMathematical-OptimizationSchedulingSystems
🟡 T2 · 建议收录
T2-04:TIE Scheduler — 尾部膨胀期望调度器
- 来源: arXiv:2604.00499v2
- URL: https://arxiv.org/html/2604.00499v2
- 可信度: 高
- 核心观点:
- 现有 Shortest-Job-First (SJF) 依赖点估计,但 LLM 输出长度本质是随机的(EOS token 采样触发停止)
- 输出长度服从 heavy-tailed distribution,可用 log-t 分布拟合
- 提出 TIE(Tail Inflated Expectation):调整期望时纳入尾部风险
- 关键数据:
- 在线推理每 token 延迟降低 2.31×
- 离线数据生成吞吐提升 1.42×
- 分类标签:
SchedulingSJFOutput-Length-PredictionTIE
T2-05:Meta MLSys 2026 — Llama 推理大规模部署配置优化
- 来源: MLSys 2026 Oral,https://mlsys.org/virtual/2026/oral/3780
- 可信度: 极高——Meta 官方生产经验
- 核心内容:
- 分析了数百万种部署配置,找到满足延迟 SLO 的最大吞吐配置
- 覆盖:H100/H200/MI300X、多种并行策略(tensor/pipeline/expert/context/data parallelism)、continuous batching vs prefill-decode disaggregation
- 关键洞察:MoE 的系统级影响与 dense 模型截然不同
- parallelism strategies 是 phase-specific 的(prefill vs decode 策略不同)
- 工程价值: ⭐⭐⭐⭐⭐ — Meta 官方生产经验,含大量实际 trade-off 数据
- 后续行动: 精读;提炼选型决策框架;纳入 MLPs 知识库
- 分类标签:
MLSysMetaLlamaDeploymentParallelismMoESLO
T2-06:PipeMax — Pipeline Parallelism + KV Cache Offloading
- 来源: arXiv:2605.02189v1
- URL: https://arxiv.org/html/2605.02189v1
- 核心内容: 通过 offload inactive batches 的 KV cache,配合 pipeline parallelism 扩展有效 GPU 内存
- 关键数据: 8-GPU 节点上比 vLLM 吞吐提升 2.51×
- 分类标签:
Pipeline-ParallelismOffloadingMulti-GPUvLLM
三、Database · pgvector 2026 性能翻身
🔴 必读:pgvector + pgvectorscale 2026 性能数据
- 来源: DEV Community + TigerData + Salt Techn博客综合
- URL: https://dev.to/polliog/postgresql-as-a-vector-database-when-to-use-pgvector-vs-pinecone-vs-weaviate-4kfi
- 可信度: 中——有基准数据但需自行核实
- 核心内容(2026 最新):
- pgvectorscale(Timescale)让 PostgreSQL 达到 471 QPS @ 99% recall,50M 向量规模
- 比 Qdrant 快 11.4×(同测试条件)
- 已可与 Pinecone 正面竞争
- Vector DB 2026 全景对比(综合多个来源): | 数据库 | 类型 | 延迟 P50 | 吞吐 | 规模 | 定位 | |--------|------|----------|------|------|------| | Qdrant | 向量专用 | 25ms | 8K-20K QPS | 十亿级 | 性能优先 | | Milvus | 向量专用 | 35ms | 10K-30K QPS | 十亿级+ | GPU 加速 | | pgvector+scale | PG 扩展 | ~50ms | 471 QPS | 5000 万级 | 简单场景 | | Weaviate | 向量+混合 | — | — | — | 混合检索最强 | | Pinecone | 全托管 | — | — | — | 易用性最优 |
- 行业趋势(Actian 2026 评估):
- 行业正在向"vector as a feature"转变:PostgreSQL + pgvector 或 Actian VectorAI DB 逐渐优于独立向量数据库
- 独立向量 DB 的场景:超大规模(>10 亿向量)、专业混合检索(Weaviate)、GPU 加速搜索(Milvus)
- 工程价值: ⭐⭐⭐⭐ — 5000 万以下向量规模,pgvector 已是首选;超过此规模需评估专用向量 DB
- 后续行动: 归档 Vector DB 选型决策树;更新知识库数据库章节
- 分类标签:
pgvectorpgvectorscaleVector-DBPostgreSQLBenchmarkProduction
四、Cloud-Native · llm-d Kubernetes 推理栈
🟡 T2 · llm-d — Kubernetes 原生推理服务栈
- 来源: https://github.com/llm-d/llm-d
- 可信度: 高——GitHub 开源,有架构文档和 Helm chart
- 核心内容:
- Kubernetes 上的生产级分布式推理服务栈
- 支持多种加速器(NVIDIA/AMD/...
- 提供 intelligent router + 性能优化 above model servers
- 有完整 Helm chart 和 benchmark 指南
- 工程价值: ⭐⭐⭐ — 与下午 19:52 简报的 K8s 推理框架横评互补;值得关注是否可替代或集成到现有 K8s + vLLM 架构
- 分类标签:
KubernetesInferenceDistributedGitHubllm-d
五、Substack · Sebastian Raschka LLM Research 2026 前五月精选
🟡 T2 · Sebastian Raschka "Ahead of AI" — LLM Research 2026 前五月论文列表
- 来源: https://magazine.sebastianraschka.com/p/llm-research-papers-2026-part1
- 可信度: 高——Raschka 是知名 AI 研究者和作家
- 核心内容(高质量条目摘要):
-
GLM-5: From Vibe Coding to Agentic Engineering(arxiv:2602.15763) - 智谱 AI(Zhipu AI)最新模型,从 blank infilling 到 744B MoE - 已在华为昇腾芯片上完成 $19B IPO
-
Attention Residuals(arxiv:2603.15031,2026-03-15) - 提出 attention residuals 机制
-
Mamba-3(arxiv:2603.15569) - Mamba SSM 架构改进,cross-architecture distillation
-
Nemotron 3 Super(arxiv:2604.12374) - NVIDIA 开源:MoE + Mamba-Transformer 混合,agentic reasoning - H800 友好——对国产 GPU 有参考价值
-
Scaling Embeddings Outperforms Scaling Experts(arxiv:2601.21204,2026-01-29) - 对 MoE scaling 假设的反驳
-
ViT-5(arxiv:2602.08071) - 重大视觉 Transformer 设计更新
-
Nanbeige 4.1-3B(arxiv:2602.13367) - 小模型推理 + 对齐 + 行动能力
- 评价: Raschka 的 newsletter 是目前最系统的 LLM 论文追踪源,每条目附简短评论,适合快速筛选
- 分类标签:
SubstackSebastian-RaschkaLLM-Research2026-PapersMoESSMViT
🟡 T2 · LLMsResearch Substack — GLM 744B MoE 演进 + Recursive Language Models
- 来源: https://llmsresearch.substack.com
- 核心内容:
- GLM 架构演进史:从 2021 fill-in-the-blank → 2026 744B MoE
- Recursive Language Models:将 prompt 当作 code(REPL 变量存储),无需架构修改或微调
- TurboQuant:基于 angle 量化,14.8× 更低的 perplexity 下降
- 覆盖 2026 年 2 月前后的 17 篇重要 arXiv 论文
- 分类标签:
SubstackLLMs-ResearchGLMMoEQuantizationRecursive-LM
🟢 T3 · Agentic RAG Tech Stack ROI 分析
- 来源: https://rockstarconsultant.substack.com/p/agentic-rag-and-its-tech-stack-vs
- 可信度: 中——从业者评估,非学术
- 核心内容:
- Agentic RAG = 自主规划 + 多步推理 + 外部工具调用
- 推荐技术栈(9 层):Groq(部署) / LangSmith(评测) / Claude 4(LLM) / LangChain(框架) / Pinecone(VectorDB) / OpenAI(Embedding) / Firecrawl(数据抓取) / Zep(Memory) / Guardrails AI(对齐)
- 评价:Groq + Claude 4 + Pinecone 的组合适合企业 Agentic RAG 快速原型
- 分类标签:
SubstackAgentic-RAGTech-StackEnterprise
六、Engineering · SGLang NSA + TRT-LLM DSA 融合(2026-06 新动态)
🟡 T2 · SGLang NSA + TRT-LLM DSA Blackwell 加速 DeepSeek V3.2
- 来源: Spheron Blog,https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
- 可信度: 中——第三方 benchmark,需自行核实
- 核心内容:
- SGLang 新版本支持
--nsa-prefill-backend trtllm+--nsa-decode-backend trtllm - 在 Blackwell 架构上,DeepSeek V3.2 稀疏注意力提速 3x-5x
- 同时扩展支持:Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5
- vLLM MRV2 在 GB200 上比 legacy runner 吞吐提升 56%(H100 上结果不同)
- Modular MAX(Mojo kernels)正在成为第五竞争者,在密集模型高并发场景下超越 vLLM
- 工程价值: ⭐⭐⭐⭐ — Blackwell 节点 + DeepSeek V3.2 + SGLang NSA 的组合是 2026Q3 最值得关注的生产配置之一
- 后续行动: 关注 SGLang 官方 CHANGELOG 确认 NSA + TRT-LLM 融合版本号;Blackwell 硬件可用性跟踪
- 分类标签:
SGLangNSATensorRT-LLMDSADeepSeekBlackwellvLLM-MRV2
建议写入路径
| 主题 | 目标文件 |
|---|---|
| KV Cache 五大优化方向综述 | /shared/research-kb/inbox/jay/2026-06-19-kvcache-optimization-survey-2026.md |
| Meta Llama 推理大规模部署经验 | /shared/research-kb/inbox/jay/2026-06-19-meta-llama-inference-mlsys2026-production.md |
| pgvector 2026 性能翻身 + 选型树 | /shared/research-kb/inbox/jay/2026-06-19-pgvector-2026-performance-benchmark.md |
| SGLang NSA + TRT-LLM DSA 融合 | /shared/research-kb/inbox/jay/2026-06-19-sglang-nsa-trtllm-dsa-blackwell-2026.md |
| Sebastian Raschka 2026 LLM 论文精选(1-5月) | /shared/research-kb/inbox/jay/2026-06-19-raschka-2026-llm-papers-selected.md |
精读/审稿建议
| 优先级 | 任务 | 类型 |
|---|---|---|
| P0 | AsymCache (arXiv:2606.02964) + TTKV (2604.19769) + Harvest (2602.00328) 三联读 | 精读 |
| P0 | Meta MLSys Llama 推理生产经验(mlsys.org/virtual/2026/oral/3780) | 精读 |
| P1 | LLM Serving Position Paper (arXiv:2605.01280) — 建立索引+评价 | 审稿 |
| P1 | pgvector 2026 benchmark 细节交叉验证(需查 VectorDBBench 官网) | 审稿 |
| P2 | Kareto Pareto frontier 方法论(2603.08739) | 泛读 |
| P2 | Sebastian Raschka 2026 论文列表逐篇过筛 | 泛读 |
Jay · 2026-06-19 21:00 UTC+8 · 晚间第七轮简报 · 共 13 条条目