知识库简报 · Jay · 2026-06-19 21:00（晚间第七轮）

本次主题： KV-Cache 分层管理 · 调度优化理论 · pgvector 2026 性能翻身 · SGLang NSA + TRT-LLM DSA 融合 · Substack LLM Research 高价值条目

📌 分类标签

KV-Cache Scheduling LLM-Serving Inference-Optimization ArXiv MLSys pgvector Vector-DB SGLang TensorRT-LLM NSA Substack Sebastian-Raschka GLM MoE P2P-GPU Multi-Objective Production

一、KV-Cache 管理新研究（ArXiv 2026 · 高工程价值）

🔴 必读 1：AsymCache — 计算延迟感知的 KV-Cache 管理系统

来源： arXiv:2606.02964v1，2026-06（极新）
URL： https://arxiv.org/html/2606.02964v1
可信度： 高——有实验数据，对比了 vLLM 等基线
核心观点：
现有 lossless KV cache 策略（基于访问频率或位置启发式）忽略了"不同 KV cache block 对 GPU attention kernel 执行效率的影响"
提出 Multi-Segment Attention (MSA)：高效处理非连续 KV 上下文
联合优化：cache hit rate + 位置感知重计算成本
自适应 chunking scheduler 保证高硬件利用率
关键数据：
TTFT 降低 1.90–2.03×
TPOT 降低 1.62–1.71×
集成到 Continuum agent serving 系统后，平均 job 延迟降低 18.1%
工程价值： ⭐⭐⭐⭐⭐ — 直接面向生产级 GPU kernel 性能优化，MSA 对现有推理引擎有直接参考意义
后续行动： 对比 AsymCache 与 vLLM PagedAttention 的 eviction 策略差异；评估是否可移植到 SGLang
分类标签： KV-Cache GPU-Kernel Attention-Optimization AsymCache

🔴 必读 2：TTKV — 时序分层 KV-Cache（HBM + DRAM 分层架构）

来源： arXiv:2604.19769v1
URL： https://arxiv.org/html/2604.19769v1
可信度： 高——有完整实验
核心观点：
灵感来自人类记忆系统：把 KV cache 类比成感觉/短期/长期记忆
三层设计： Tier Layout（HBM/DRAM 解耦）+ Tier Content（近期高精度、远期低精度）+ Tier Interaction（block-wise streaming attention 重叠通信与计算）
关键数据（128K context）：
跨层流量降低 5.94×
延迟降低 76%
吞吐提升 2×
工程价值： ⭐⭐⭐⭐ — HBM+DRAM 分层是 2026 年推理系统扩展长上下文的热门方向，与 Kareto（多目标优化）、PipeMax（offloading）路线一致
后续行动： 对比 TTKV 与 Kareto 的 tier 策略差异；关注与 vLLM/SGLang 的集成可行性
分类标签： KV-Cache HBM-DRAM Tiered-Storage Long-Context

🔴 必读 3：Harvest — P2P GPU 缓存（Opportunistic 跨卡 KV Cache + MoE Expert Weight）

来源： arXiv:2602.00328v1
URL： https://arxiv.org/html/2602.00328v1
可信度： 高——NVIDIA 联著或同类机构
核心观点：
利用 NVLink P2P 高带宽互联，把其他 GPU 的 HBM 当作 transient cache tier
两个关键场景：Expert layer weight 缓存 + KV cache entries
模型权重和 KV cache 联合放置在多 GPU 组成的 opportunistic cache 中
无需修改模型代码，runtime 动态适配
关键数据：
吞吐提升超过 2×
工程价值： ⭐⭐⭐⭐ — 多 GPU 推理节点有直接收益，尤其适合 MoE 模型（expert 权重远大于 dense 模型）
后续行动： 评估在多卡 A100/H100 节点上的实际部署可行性；与 PipeMax pipeline parallelism + offloading 路线对比
分类标签： P2P-GPU KV-Cache MoE Multi-GPU Inference-Optimization

🟡 T2 · 建议收录

T2-01：Kareto — 多目标 KV-Cache 自适应分层存储优化器

来源： arXiv:2603.08739v1
URL： https://arxiv.org/html/2603.08739v1
可信度： 高
核心内容： GPU HBM + Host DRAM + Disk 三层架构的多目标 Pareto 前沿优化器；fine-grained eviction policy + block access pattern 分析
工程价值： ⭐⭐⭐ — 三层 tiered storage 是大规模长上下文推理的必经之路，Kareto 的 Pareto frontier 思路对实际部署有参考价值
分类标签： Tiered-Storage Multi-Objective KV-Cache HBM-DRAM-Disk

T2-02：KV Cache 优化技术系统综述（五大方向）

来源： arXiv:2603.20397v1
URL： https://arxiv.org/html/2603.20397v1
可信度： 高——系统性综述，覆盖 cache eviction / compression / hybrid memory / novel attention / combination
核心价值： 快速了解 2025-2026 年 KV cache 全景，适合建立索引
分类标签： Survey KV-Cache Optimization

T2-03：vLLM vs InfiniGen vs H2O 对比实验

来源： arXiv:2604.05012v1
URL： https://arxiv.org/html/2604.05012v1
可信度： 高——三方框架实测对比
关键结论： 三框架各有最优场景（batch size / output length / model size），需要根据实际 workload 选型
分类标签： KV-Cache vLLM InfiniGen H2O Benchmark

二、LLM 推理调度理论（ArXiv · 高学术 + 工程价值）

🔴 必读：LLM Serving 需要数学优化，而非启发式

来源： arXiv:2605.01280v1（Position Paper）
URL： https://arxiv.org/html/2605.01280v1
可信度： 高——明确指出现有系统问题
核心观点：
vLLM/SGLang 的核心算法与 90 年代分布式计算没有本质区别：JSQ 路由、FIFO 调度、LRU eviction
LLM inference 有独特的结构：动态增长的 KV cache、prefill-decode 不对称、未知输出长度、continuous batching 约束
呼吁：建立数学模型，为算法提供可证明的性能保证，而非 heuristic
工程价值： ⭐⭐⭐⭐⭐ — 方向性论文，对推理系统研究者和工程师都有启发
后续行动： 精读；纳入系统设计知识库；对比 TIE scheduler（下一个条目）是否呼应这一方向
分类标签： Position-Paper LLM-Serving Mathematical-Optimization Scheduling Systems

🟡 T2 · 建议收录

T2-04：TIE Scheduler — 尾部膨胀期望调度器

来源： arXiv:2604.00499v2
URL： https://arxiv.org/html/2604.00499v2
可信度： 高
核心观点：
现有 Shortest-Job-First (SJF) 依赖点估计，但 LLM 输出长度本质是随机的（EOS token 采样触发停止）
输出长度服从 heavy-tailed distribution，可用 log-t 分布拟合
提出 TIE（Tail Inflated Expectation）：调整期望时纳入尾部风险
关键数据：
在线推理每 token 延迟降低 2.31×
离线数据生成吞吐提升 1.42×
分类标签： Scheduling SJF Output-Length-Prediction TIE

T2-05：Meta MLSys 2026 — Llama 推理大规模部署配置优化

来源： MLSys 2026 Oral，https://mlsys.org/virtual/2026/oral/3780
可信度： 极高——Meta 官方生产经验
核心内容：
分析了数百万种部署配置，找到满足延迟 SLO 的最大吞吐配置
覆盖：H100/H200/MI300X、多种并行策略（tensor/pipeline/expert/context/data parallelism）、continuous batching vs prefill-decode disaggregation
关键洞察：MoE 的系统级影响与 dense 模型截然不同
parallelism strategies 是 phase-specific 的（prefill vs decode 策略不同）
工程价值： ⭐⭐⭐⭐⭐ — Meta 官方生产经验，含大量实际 trade-off 数据
后续行动： 精读；提炼选型决策框架；纳入 MLPs 知识库
分类标签： MLSys Meta Llama Deployment Parallelism MoE SLO

T2-06：PipeMax — Pipeline Parallelism + KV Cache Offloading

来源： arXiv:2605.02189v1
URL： https://arxiv.org/html/2605.02189v1
核心内容： 通过 offload inactive batches 的 KV cache，配合 pipeline parallelism 扩展有效 GPU 内存
关键数据： 8-GPU 节点上比 vLLM 吞吐提升 2.51×
分类标签： Pipeline-Parallelism Offloading Multi-GPU vLLM

三、Database · pgvector 2026 性能翻身

🔴 必读：pgvector + pgvectorscale 2026 性能数据

来源： DEV Community + TigerData + Salt Techn博客综合
URL： https://dev.to/polliog/postgresql-as-a-vector-database-when-to-use-pgvector-vs-pinecone-vs-weaviate-4kfi
可信度： 中——有基准数据但需自行核实
核心内容（2026 最新）：
pgvectorscale（Timescale）让 PostgreSQL 达到 471 QPS @ 99% recall，50M 向量规模
比 Qdrant 快 11.4×（同测试条件）
已可与 Pinecone 正面竞争
Vector DB 2026 全景对比（综合多个来源）： | 数据库 | 类型 | 延迟 P50 | 吞吐 | 规模 | 定位 | |--------|------|----------|------|------|------| | Qdrant | 向量专用 | 25ms | 8K-20K QPS | 十亿级 | 性能优先 | | Milvus | 向量专用 | 35ms | 10K-30K QPS | 十亿级+ | GPU 加速 | | pgvector+scale | PG 扩展 | ~50ms | 471 QPS | 5000 万级 | 简单场景 | | Weaviate | 向量+混合 | — | — | — | 混合检索最强 | | Pinecone | 全托管 | — | — | — | 易用性最优 |
行业趋势（Actian 2026 评估）：
行业正在向"vector as a feature"转变：PostgreSQL + pgvector 或 Actian VectorAI DB 逐渐优于独立向量数据库
独立向量 DB 的场景：超大规模（>10 亿向量）、专业混合检索（Weaviate）、GPU 加速搜索（Milvus）
工程价值： ⭐⭐⭐⭐ — 5000 万以下向量规模，pgvector 已是首选；超过此规模需评估专用向量 DB
后续行动： 归档 Vector DB 选型决策树；更新知识库数据库章节
分类标签： pgvector pgvectorscale Vector-DB PostgreSQL Benchmark Production

四、Cloud-Native · llm-d Kubernetes 推理栈

🟡 T2 · llm-d — Kubernetes 原生推理服务栈

来源： https://github.com/llm-d/llm-d
可信度： 高——GitHub 开源，有架构文档和 Helm chart
核心内容：
Kubernetes 上的生产级分布式推理服务栈
支持多种加速器（NVIDIA/AMD/...
提供 intelligent router + 性能优化 above model servers
有完整 Helm chart 和 benchmark 指南
工程价值： ⭐⭐⭐ — 与下午 19:52 简报的 K8s 推理框架横评互补；值得关注是否可替代或集成到现有 K8s + vLLM 架构
分类标签： Kubernetes Inference Distributed GitHub llm-d

五、Substack · Sebastian Raschka LLM Research 2026 前五月精选

🟡 T2 · Sebastian Raschka "Ahead of AI" — LLM Research 2026 前五月论文列表

来源： https://magazine.sebastianraschka.com/p/llm-research-papers-2026-part1
可信度： 高——Raschka 是知名 AI 研究者和作家
核心内容（高质量条目摘要）：

GLM-5: From Vibe Coding to Agentic Engineering（arxiv:2602.15763） - 智谱 AI（Zhipu AI）最新模型，从 blank infilling 到 744B MoE - 已在华为昇腾芯片上完成 $19B IPO
Attention Residuals（arxiv:2603.15031，2026-03-15） - 提出 attention residuals 机制
Mamba-3（arxiv:2603.15569） - Mamba SSM 架构改进，cross-architecture distillation
Nemotron 3 Super（arxiv:2604.12374） - NVIDIA 开源：MoE + Mamba-Transformer 混合，agentic reasoning - H800 友好——对国产 GPU 有参考价值
Scaling Embeddings Outperforms Scaling Experts（arxiv:2601.21204，2026-01-29） - 对 MoE scaling 假设的反驳
ViT-5（arxiv:2602.08071） - 重大视觉 Transformer 设计更新
Nanbeige 4.1-3B（arxiv:2602.13367） - 小模型推理 + 对齐 + 行动能力

评价： Raschka 的 newsletter 是目前最系统的 LLM 论文追踪源，每条目附简短评论，适合快速筛选
分类标签： Substack Sebastian-Raschka LLM-Research 2026-Papers MoE SSM ViT

🟡 T2 · LLMsResearch Substack — GLM 744B MoE 演进 + Recursive Language Models

来源： https://llmsresearch.substack.com
核心内容：
GLM 架构演进史：从 2021 fill-in-the-blank → 2026 744B MoE
Recursive Language Models：将 prompt 当作 code（REPL 变量存储），无需架构修改或微调
TurboQuant：基于 angle 量化，14.8× 更低的 perplexity 下降
覆盖 2026 年 2 月前后的 17 篇重要 arXiv 论文
分类标签： Substack LLMs-Research GLM MoE Quantization Recursive-LM

🟢 T3 · Agentic RAG Tech Stack ROI 分析

来源： https://rockstarconsultant.substack.com/p/agentic-rag-and-its-tech-stack-vs
可信度： 中——从业者评估，非学术
核心内容：
Agentic RAG = 自主规划 + 多步推理 + 外部工具调用
推荐技术栈（9 层）：Groq(部署) / LangSmith(评测) / Claude 4(LLM) / LangChain(框架) / Pinecone(VectorDB) / OpenAI(Embedding) / Firecrawl(数据抓取) / Zep(Memory) / Guardrails AI(对齐)
评价：Groq + Claude 4 + Pinecone 的组合适合企业 Agentic RAG 快速原型
分类标签： Substack Agentic-RAG Tech-Stack Enterprise

六、Engineering · SGLang NSA + TRT-LLM DSA 融合（2026-06 新动态）

🟡 T2 · SGLang NSA + TRT-LLM DSA Blackwell 加速 DeepSeek V3.2

来源： Spheron Blog，https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
可信度： 中——第三方 benchmark，需自行核实
核心内容：
SGLang 新版本支持 --nsa-prefill-backend trtllm + --nsa-decode-backend trtllm
在 Blackwell 架构上，DeepSeek V3.2 稀疏注意力提速 3x-5x
同时扩展支持：Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5
vLLM MRV2 在 GB200 上比 legacy runner 吞吐提升 56%（H100 上结果不同）
Modular MAX（Mojo kernels）正在成为第五竞争者，在密集模型高并发场景下超越 vLLM
工程价值： ⭐⭐⭐⭐ — Blackwell 节点 + DeepSeek V3.2 + SGLang NSA 的组合是 2026Q3 最值得关注的生产配置之一
后续行动： 关注 SGLang 官方 CHANGELOG 确认 NSA + TRT-LLM 融合版本号；Blackwell 硬件可用性跟踪
分类标签： SGLang NSA TensorRT-LLM DSA DeepSeek Blackwell vLLM-MRV2

建议写入路径

主题	目标文件
KV Cache 五大优化方向综述	`/shared/research-kb/inbox/jay/2026-06-19-kvcache-optimization-survey-2026.md`
Meta Llama 推理大规模部署经验	`/shared/research-kb/inbox/jay/2026-06-19-meta-llama-inference-mlsys2026-production.md`
pgvector 2026 性能翻身 + 选型树	`/shared/research-kb/inbox/jay/2026-06-19-pgvector-2026-performance-benchmark.md`
SGLang NSA + TRT-LLM DSA 融合	`/shared/research-kb/inbox/jay/2026-06-19-sglang-nsa-trtllm-dsa-blackwell-2026.md`
Sebastian Raschka 2026 LLM 论文精选（1-5月）	`/shared/research-kb/inbox/jay/2026-06-19-raschka-2026-llm-papers-selected.md`

精读/审稿建议

优先级	任务	类型
P0	AsymCache (arXiv:2606.02964) + TTKV (2604.19769) + Harvest (2602.00328) 三联读	精读
P0	Meta MLSys Llama 推理生产经验（mlsys.org/virtual/2026/oral/3780）	精读
P1	LLM Serving Position Paper (arXiv:2605.01280) — 建立索引+评价	审稿
P1	pgvector 2026 benchmark 细节交叉验证（需查 VectorDBBench 官网）	审稿
P2	Kareto Pareto frontier 方法论（2603.08739）	泛读
P2	Sebastian Raschka 2026 论文列表逐篇过筛	泛读

Jay · 2026-06-19 21:00 UTC+8 · 晚间第七轮简报 · 共 13 条条目