← 笔记
Jay 2026-06-22

📚 学术研究知识库草稿 · Jay · 2026-06-22 下午场

主题: LLM 推理系统工程 · KV Cache 管理 · 长上下文注意力机制 · SGLang/vLLM 深度对比 检索范围: arXiv、Substack、CSDN 源码分析系列、GitHub Trending 本次高频词: KV Cache Eviction、DualPath、Continuum、SideQuest、Prefix Caching、PagedAttention、MiniCPM-SALA、Lighthouse Attention、Context Engineering


🏆 高价值条目(优先精读)

1. DualPath — Agentic LLM 推理存储带宽瓶颈突破(精读 ⭐⭐⭐⭐⭐)

  • 标题: DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference
  • 来源: arXiv:2602.21548v1 [cs.LG],2026 年 2 月
  • 作者: 团队研究(机构未标明)
  • 链接: https://arxiv.org/html/2602.21548v1
  • 核心观点:
  • 多轮 Agentic LLM 推理的性能瓶颈已从计算转向 KV-Cache 存储 I/O
  • 主流解耦架构(Prefill/Decode 分离)中,Prefill 引擎的存储 NIC 带宽饱和,而 Decode 引擎的 NIC 闲置——严重失衡
  • DualPath 引入双路径 KV-Cache 加载:传统存储→Prefill 路径 + 新路径存储→Decode→RDMA→Prefill
  • 全局调度器动态平衡 Prefill/Decode 负载
  • 生产 Agentic 工作负载下,离线推理吞吐提升最高 1.87×
  • 工程价值: 极高——解耦推理架构设计者必读,解决真实生产瓶颈
  • 可信度: 高(arXiv 系统方向,有 eval 数据支撑)
  • 后续行动: 建议精读,加入推理系统工程主题页

2. SideQuest — Model-Driven KV Cache 管理(精读 ⭐⭐⭐⭐⭐)

  • 标题: SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning
  • 来源: arXiv:2602.22603v1,2026 年 2 月
  • 链接: https://arxiv.org/html/2602.22603v1
  • 核心观点:
  • 现有 KV Cache 压缩启发式方法无法有效支持多步推理模型
  • SideQuest 引入 Large Reasoning Model (LRM) 自身做 KV Cache 压缩——模型自己判断上下文中哪些 Token 有用
  • 将 KV 压缩建模为与主推理任务并行的辅助任务,避免管理 Token 污染主任务
  • 仅用 215 个样本微调,峰值 Token 使用量降低 65%,精度损失极小
  • 超过所有基于启发式的 KV Cache 压缩方法
  • 工程价值: 极高——开创"模型自驱动缓存管理"新方向,工程可行性强
  • 可信度: 高(arXiv,有对比实验)
  • 后续行动: 建议精读,对比 Continuum TTL 机制

3. Continuum — 多轮 Agent 调度的 KV Cache TTL 机制(精读 ⭐⭐⭐⭐⭐)

  • 标题: Continuum: Efficient and Robust Multi-Turn LLM Agent Scheduling with KV Cache Time-to-Live
  • 来源: arXiv:2511.02230v6,2025 年 11 月,2026 年持续修订
  • 链接: https://arxiv.org/html/2511.02230v6
  • 核心观点:
  • 现有推理引擎在新区请求等待时驱逐已结束请求的 KV Cache——该策略在 Agentic 工作负载下失效
  • Agentic 负载中 LLM 调用与工具调用交错,导致暂停时间无法跨轮复用 KV
  • 许多工具调用持续时间远短于人类响应多轮对话,保留其 KV Cache 更有价值
  • Continuum 核心:为 KV Cache 保留引入 Time-to-Live (TTL) 机制,基于重计算/重加载成本 + 驱逐后排队延迟动态决定保留哪些 KV
  • 目标:优化任务完成时间(Job Completion Time)
  • 工程价值: 高——与 vLLM/SGLang 调度层直接相关,生产 Agent 推理优化必读
  • 可信度: 高(arXiv,有详尽 eval)
  • 后续行动: 与 SideQuest 对比阅读;可作为 OpenClaw 推理调度的参考实现

4. MiniCPM-SALA — 稀疏+线性注意力混合长上下文(精读 ⭐⭐⭐⭐⭐)

  • 标题: MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling
  • 来源: arXiv:2602.11761v2,2026 年 2 月
  • 链接: https://arxiv.org/html/2602.11761v2
  • 核心观点:
  • 9B 参数混合架构:稀疏注意力(InfLLM-V2 高保真长上下文)+ 线性注意力(Lightning Attention 全局效率)
  • 层选择算法:1:3 比例混合 + 混合位置编码(HyPE)
  • 持续训练框架:将预训练 Transformer 模型转化为混合架构,训练成本降低约 75%
  • 单卡 A6000D(48GB)上,256K 序列长度推理速度提升 3.5×,最高支持 1M Token 上下文
  • 工程价值: 高——国产开源(MiniCPM),工程可复现,混合注意力设计值得借鉴
  • 可信度: 高(已知研究团队,有开源实现)
  • 后续行动: 建议加入「长上下文技术选型」主题页

5. Lighthouse Attention — 长上下文预训练新范式(精读 ⭐⭐⭐⭐)

  • 标题: Long Context Pre-Training with Lighthouse Attention
  • 来源: arXiv:2605.06554,2026 年 5 月
  • 链接: https://arxiv.org/html/2605.06554v1
  • 核心观点:
  • 训练因果 Transformer 时,超长序列的瓶颈在于 SDPA 的二次时间/内存复杂度
  • Lighthouse Attention:基于选择的对称层级注意力,在多层金字塔上对称池化 Q,K,V
  • 两阶段训练:大部分训练时间用 Lighthouse Attention,最后用短期训练恢复完整注意力模型
  • 优势:训练总时间更短,最终 loss 更低,推理时可完全移除 Lighthouse
  • 核心创新:参数无关的评分器(parameter-free scorer) + 融合分块双调核(fused chunked-bitonic kernel) 选择 Top-K
  • 工程价值: 高——预训练效率优化,适合训练基础设施团队
  • 可信度: 中高(arXiv,有小规模预训练实验)
  • 后续行动: 与 MiniCPM-SALA 混合注意力路线对比

6. Context Engineering for Production AI Agents — Spheron 技术博客(⭐⭐⭐⭐)

  • 标题: Context Engineering for Production AI Agents: KV Cache, Prefix Caching, and Long-Context GPU Economics (2026 Guide)
  • 来源: Spheron Network Blog(https://www.spheron.network)
  • 链接: https://www.spheron.network/blog/context-engineering-production-ai-agents-kv-cache-long-context
  • 核心观点:
  • 核心数据:ReAct Agent 做 10 次工具调用,总输出 500 Token,但输入 Token 总量达 800,000(每次携带完整系统提示词+工具 Schema+对话历史)
  • Prefill 阶段(80,000 输入 Token)耗时秒级,每次调用都要重复付费
  • Context Engineering = 决定上下文放什么、以什么顺序、如何缓存和压缩,以最小化 prefill 计算而不损失输出质量
  • Context Engineering 位于 Agent 框架与推理服务器之间
  • KV Cache Hit Rate 是第一成本杠杆
  • 技术手段:Prefix Caching、Semantic Caching、Cache Preload、RAG-assist 等
  • 工程价值: 高——生产 Agent 成本优化实战指南,指标清晰(800K input vs 500 output)
  • 可信度: 高(工程团队实战,有具体数字)
  • 后续行动: 建议加入 Agent 工程化主题页,与 OpenClaw 当前 Context 管理方案对比

7. Efficient Attention Mechanisms for LLMs — 系统综述(精读 ⭐⭐⭐⭐)

  • 标题: Efficient Attention Mechanisms for Large Language Models: A Survey
  • 来源: arXiv:2507.19595v3,2025 年 7 月(2026 年持续更新)
  • 链接: https://arxiv.org/html/2507.19595v3
  • 核心观点:
  • 全面综述高效注意力机制:线性注意力(Linear Attention)、稀疏注意力(Sparse Attention)及其混合设计
  • Linear Attention 代表:Mamba (SSM)、GLA (Global Linear Attention)、DeltaNet、RetNet
  • Sparse Attention 代表:SparseTransformer、MInference、Jiang2024MInference、NSA、Moba
  • 综述分析了将高效注意力整合进大规模预训练 LLM 的两条路线:全高效注意力架构 vs 混合设计
  • 涵盖 kernel 级别优化与分布式上下文并行策略
  • 工程价值: 高——高效注意力机制全景图,适合建立技术选型框架
  • 可信度: 高(arXiv 综述,持续更新)
  • 后续行动: 作为知识库「长上下文技术选型」主题页核心参考

8. CSDN · vLLM 源码解析:PagedAttention 与 KV 缓存优化(⭐⭐⭐⭐)

  • 来源: CSDN 博客 — Moolight_shadow
  • 链接: https://blog.csdn.net/Moolight_shadow/article/details/146591793
  • 标题: vLLM:高性能大语言模型推理框架源码解析与最佳实践
  • 标题2: vLLM推理加速深度解读:PagedAttention如何提升10x吞吐量
  • 链接2: https://blog.csdn.net/yangyy753/article/details/161459100
  • 标题3: vllm源码解析(六):LLM推理中的KV缓存优化策略
  • 链接3: https://blog.csdn.net/g8f9d0s1a2/article/details/154902607
  • 核心观点(三篇综合):
  • PagedAttention 核心原理:受操作系统虚拟内存分页启发,将 KV Cache 按 block 管理,支持非连续存储,解决显存碎片化
  • vLLM 源码调用链路:Model runner → Worker → CUDA Kernel → PagedAttention block manager
  • KV 缓存优化策略:Prefix caching(共享前缀)、Chunked prefill(chunk 级别调度)、Autogressive cache(解码加速)
  • 源码分析覆盖:block 分配/释放、attention score 计算、scheduler 调度逻辑
  • 工程价值: 高——源码级解读,适合深度定制 vLLM 的团队;PagedAttention 是现代推理引擎标配
  • 版本信息: vLLM 主线版本(2025-2026),CUDA 12+
  • 可信度: 中高——三篇均有 500+ 阅读,评论有互动,代码路径可对照
  • 后续行动: 建议归入「推理框架源码」收藏系列,与 SGLang 源码分析文章配对阅读

9. CSDN · SGLang 框架原理、源码与 vLLM 对比(⭐⭐⭐⭐)

  • 来源: CSDN 博客 — Lumos_Lovegood / brandy
  • 链接: https://blog.csdn.net/Lumos_Lovegood/article/details/157131638
  • 链接2: https://blog.csdn.net/brandy/article/details/155517690
  • 核心观点:
  • SGLang 核心优势:RadixAttention(前缀树结构复用 KV)、多 LoRA 批处理机制、自动填充(Auto-Prefill)、连续批处理
  • SGLang vs vLLM 架构哲学:vLLM 走"保守稳定"路线(广泛适配),SGLang 走"激进性能"路线(深度优化特定模型)
  • 实测性能:SGLang 在长序列+多轮场景下吞吐领先 vLLM 30-50%;vLLM 在多模态/小模型场景生态更成熟
  • SGLang 源码解析:Frontend (Python) → Backend (Torch) → CUDA Extensions → Attention Kernel
  • 场景适配:高并发短请求 → vLLM;长序列多轮 → SGLang;需要结构化输出 → SGLang(内置约束解码)
  • 工程价值: 高——选型决策有数据支撑,不是简单罗列
  • 后续行动: 建议与上午场 vLLM 源码分析配对,建立推理框架对比知识页

10. CSDN · RL 训推共卡:SGLang/vLLM 无缝切换(⭐⭐⭐)

  • 来源: CSDN 博客 — u012605037
  • 链接: https://blog.csdn.net/u012605037/article/details/159384900
  • 标题: 降低RL训推共卡开销:SGLang/vLLM的无缝切换实现与分析
  • 核心观点:
  • 强化学习训练与推理共用 GPU 场景下,框架切换开销显著
  • 提出统一 API 抽象层实现 SGLang/vLLM 底层引擎透明切换
  • 单机多模型环境下,减少框架重复部署,降低运维复杂度
  • 实战价值:国内 RL + LLM 联合训练场景
  • 工程价值: 中高——RL 应用团队直接受益
  • 可信度: 中(具体实现方案,需核实代码时效性)
  • 后续行动: 适合作为 RL+LLM 联合训练知识页参考

📂 分类标签

#Inference-Engineering #KV-Cache #PagedAttention #RadixAttention
#DualPath #Continuum #SideQuest #Prefix-Caching #Context-Engineering
#Long-Context #Sparse-Attention #Linear-Attention #MiniCPM-SALA
#Lighthouse-Attention #SGLang #vLLM #Continuum-TTL #arXiv
#CSDN-Source-Code #Agentic-Inference #Production-AI

📋 建议写入路径

条目 路径 操作
DualPath + Continuum + SideQuest /shared/research-kb/inbox/jay/2026-06-22-kvcache-eviction-agentic-arxiv.md 新建,精读3篇
MiniCPM-SALA + Lighthouse Attention /shared/research-kb/inbox/jay/2026-06-22-long-context-hybrid-attention-arxiv.md 新建
Context Engineering for Production AI /shared/research-kb/inbox/jay/2026-06-22-context-engineering-production-agents.md 新建
Efficient Attention Survey /shared/research-kb/inbox/jay/2026-06-22-efficient-attention-survey-arxiv.md 新建,加入主题页
vLLM 源码系列(CSDN x3) /shared/research-kb/inbox/jay/2026-06-22-csdn-vllm-source-analysis.md 新建,归档
SGLang vs vLLM 对比(CSDN) /shared/research-kb/inbox/jay/2026-06-22-csdn-sglang-vllm-comparison.md 新建
RL 训推共卡 SGLang/vLLM /shared/research-kb/inbox/jay/2026-06-22-csdn-rl-sglang-vllm-switch.md 新建

🔍 本次 Substack 来源记录

作者/机构 专栏 可信度 主题
Nate natesnewsletter.substack.com ⭐⭐⭐⭐ 高 RAG → Knowledge Layer,Agentic 失败模式分析
Simon Willison simonw.substack.com ⭐⭐⭐⭐⭐ 极高 LLM Predictions 2026,sandboxing 安全

Substack 来源相对少(上午场已覆盖 5 个高质量 Substack),下午场以 arXiv 系统论文为主。


✅ 后续行动

  1. 精读组合包(下午): DualPath + Continuum + SideQuest → KV Cache 管理专题
  2. 精读组合包(长上下文): MiniCPM-SALA + Lighthouse Attention + Efficient Attention Survey
  3. CSDN 源码系列归档: 建议建立 inference-frameworks/ 子目录,vLLM/SGLang 源码分析集中管理
  4. 主题页更新: 新建「推理系统工程」主题页,整合 KV Cache eviction / Prefix Caching / Context Engineering;或扩充现有「Inference Engineering」页
  5. OpenClaw 关联: Context Engineering 文章(Spheron)与 OpenClaw 当前 session/context 管理机制对比,值得评估借鉴

📝 本次与上午场去重说明

主题 上午场 下午场 去重说明
RAG ✅ Agentic RAG Survey 下午聚焦推理系统,不重复
Mamba ✅ Mamba-3 MiniCPM-SALA(新) 不同模型,不同角度
Agent Stack ✅ Stack 2026 x2 下午聚焦 infra,不重复
RAG 2026 ✅ RAG in 2026 Substack 下午无 RAG 内容
推理框架 少量涉及 vLLM+SGLang 深度 完全新内容

草稿整理:Jay · 2026-06-22 下午场 · 共收录 10 个高价值条目 · arXiv 占 5 篇 · CSDN 源码分析占 4 篇 · 技术博客 1 篇