📚 学术研究知识库草稿 · Jay · 2026-06-22 下午场
主题: LLM 推理系统工程 · KV Cache 管理 · 长上下文注意力机制 · SGLang/vLLM 深度对比 检索范围: arXiv、Substack、CSDN 源码分析系列、GitHub Trending 本次高频词: KV Cache Eviction、DualPath、Continuum、SideQuest、Prefix Caching、PagedAttention、MiniCPM-SALA、Lighthouse Attention、Context Engineering
🏆 高价值条目(优先精读)
1. DualPath — Agentic LLM 推理存储带宽瓶颈突破(精读 ⭐⭐⭐⭐⭐)
- 标题: DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference
- 来源: arXiv:2602.21548v1 [cs.LG],2026 年 2 月
- 作者: 团队研究(机构未标明)
- 链接: https://arxiv.org/html/2602.21548v1
- 核心观点:
- 多轮 Agentic LLM 推理的性能瓶颈已从计算转向 KV-Cache 存储 I/O
- 主流解耦架构(Prefill/Decode 分离)中,Prefill 引擎的存储 NIC 带宽饱和,而 Decode 引擎的 NIC 闲置——严重失衡
- DualPath 引入双路径 KV-Cache 加载:传统存储→Prefill 路径 + 新路径存储→Decode→RDMA→Prefill
- 全局调度器动态平衡 Prefill/Decode 负载
- 生产 Agentic 工作负载下,离线推理吞吐提升最高 1.87×
- 工程价值: 极高——解耦推理架构设计者必读,解决真实生产瓶颈
- 可信度: 高(arXiv 系统方向,有 eval 数据支撑)
- 后续行动: 建议精读,加入推理系统工程主题页
2. SideQuest — Model-Driven KV Cache 管理(精读 ⭐⭐⭐⭐⭐)
- 标题: SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning
- 来源: arXiv:2602.22603v1,2026 年 2 月
- 链接: https://arxiv.org/html/2602.22603v1
- 核心观点:
- 现有 KV Cache 压缩启发式方法无法有效支持多步推理模型
- SideQuest 引入 Large Reasoning Model (LRM) 自身做 KV Cache 压缩——模型自己判断上下文中哪些 Token 有用
- 将 KV 压缩建模为与主推理任务并行的辅助任务,避免管理 Token 污染主任务
- 仅用 215 个样本微调,峰值 Token 使用量降低 65%,精度损失极小
- 超过所有基于启发式的 KV Cache 压缩方法
- 工程价值: 极高——开创"模型自驱动缓存管理"新方向,工程可行性强
- 可信度: 高(arXiv,有对比实验)
- 后续行动: 建议精读,对比 Continuum TTL 机制
3. Continuum — 多轮 Agent 调度的 KV Cache TTL 机制(精读 ⭐⭐⭐⭐⭐)
- 标题: Continuum: Efficient and Robust Multi-Turn LLM Agent Scheduling with KV Cache Time-to-Live
- 来源: arXiv:2511.02230v6,2025 年 11 月,2026 年持续修订
- 链接: https://arxiv.org/html/2511.02230v6
- 核心观点:
- 现有推理引擎在新区请求等待时驱逐已结束请求的 KV Cache——该策略在 Agentic 工作负载下失效
- Agentic 负载中 LLM 调用与工具调用交错,导致暂停时间无法跨轮复用 KV
- 许多工具调用持续时间远短于人类响应多轮对话,保留其 KV Cache 更有价值
- Continuum 核心:为 KV Cache 保留引入 Time-to-Live (TTL) 机制,基于重计算/重加载成本 + 驱逐后排队延迟动态决定保留哪些 KV
- 目标:优化任务完成时间(Job Completion Time)
- 工程价值: 高——与 vLLM/SGLang 调度层直接相关,生产 Agent 推理优化必读
- 可信度: 高(arXiv,有详尽 eval)
- 后续行动: 与 SideQuest 对比阅读;可作为 OpenClaw 推理调度的参考实现
4. MiniCPM-SALA — 稀疏+线性注意力混合长上下文(精读 ⭐⭐⭐⭐⭐)
- 标题: MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling
- 来源: arXiv:2602.11761v2,2026 年 2 月
- 链接: https://arxiv.org/html/2602.11761v2
- 核心观点:
- 9B 参数混合架构:稀疏注意力(InfLLM-V2 高保真长上下文)+ 线性注意力(Lightning Attention 全局效率)
- 层选择算法:1:3 比例混合 + 混合位置编码(HyPE)
- 持续训练框架:将预训练 Transformer 模型转化为混合架构,训练成本降低约 75%
- 单卡 A6000D(48GB)上,256K 序列长度推理速度提升 3.5×,最高支持 1M Token 上下文
- 工程价值: 高——国产开源(MiniCPM),工程可复现,混合注意力设计值得借鉴
- 可信度: 高(已知研究团队,有开源实现)
- 后续行动: 建议加入「长上下文技术选型」主题页
5. Lighthouse Attention — 长上下文预训练新范式(精读 ⭐⭐⭐⭐)
- 标题: Long Context Pre-Training with Lighthouse Attention
- 来源: arXiv:2605.06554,2026 年 5 月
- 链接: https://arxiv.org/html/2605.06554v1
- 核心观点:
- 训练因果 Transformer 时,超长序列的瓶颈在于 SDPA 的二次时间/内存复杂度
- Lighthouse Attention:基于选择的对称层级注意力,在多层金字塔上对称池化 Q,K,V
- 两阶段训练:大部分训练时间用 Lighthouse Attention,最后用短期训练恢复完整注意力模型
- 优势:训练总时间更短,最终 loss 更低,推理时可完全移除 Lighthouse
- 核心创新:参数无关的评分器(parameter-free scorer) + 融合分块双调核(fused chunked-bitonic kernel) 选择 Top-K
- 工程价值: 高——预训练效率优化,适合训练基础设施团队
- 可信度: 中高(arXiv,有小规模预训练实验)
- 后续行动: 与 MiniCPM-SALA 混合注意力路线对比
6. Context Engineering for Production AI Agents — Spheron 技术博客(⭐⭐⭐⭐)
- 标题: Context Engineering for Production AI Agents: KV Cache, Prefix Caching, and Long-Context GPU Economics (2026 Guide)
- 来源: Spheron Network Blog(https://www.spheron.network)
- 链接: https://www.spheron.network/blog/context-engineering-production-ai-agents-kv-cache-long-context
- 核心观点:
- 核心数据:ReAct Agent 做 10 次工具调用,总输出 500 Token,但输入 Token 总量达 800,000(每次携带完整系统提示词+工具 Schema+对话历史)
- Prefill 阶段(80,000 输入 Token)耗时秒级,每次调用都要重复付费
- Context Engineering = 决定上下文放什么、以什么顺序、如何缓存和压缩,以最小化 prefill 计算而不损失输出质量
- Context Engineering 位于 Agent 框架与推理服务器之间
- KV Cache Hit Rate 是第一成本杠杆
- 技术手段:Prefix Caching、Semantic Caching、Cache Preload、RAG-assist 等
- 工程价值: 高——生产 Agent 成本优化实战指南,指标清晰(800K input vs 500 output)
- 可信度: 高(工程团队实战,有具体数字)
- 后续行动: 建议加入 Agent 工程化主题页,与 OpenClaw 当前 Context 管理方案对比
7. Efficient Attention Mechanisms for LLMs — 系统综述(精读 ⭐⭐⭐⭐)
- 标题: Efficient Attention Mechanisms for Large Language Models: A Survey
- 来源: arXiv:2507.19595v3,2025 年 7 月(2026 年持续更新)
- 链接: https://arxiv.org/html/2507.19595v3
- 核心观点:
- 全面综述高效注意力机制:线性注意力(Linear Attention)、稀疏注意力(Sparse Attention)及其混合设计
- Linear Attention 代表:Mamba (SSM)、GLA (Global Linear Attention)、DeltaNet、RetNet
- Sparse Attention 代表:SparseTransformer、MInference、Jiang2024MInference、NSA、Moba
- 综述分析了将高效注意力整合进大规模预训练 LLM 的两条路线:全高效注意力架构 vs 混合设计
- 涵盖 kernel 级别优化与分布式上下文并行策略
- 工程价值: 高——高效注意力机制全景图,适合建立技术选型框架
- 可信度: 高(arXiv 综述,持续更新)
- 后续行动: 作为知识库「长上下文技术选型」主题页核心参考
8. CSDN · vLLM 源码解析:PagedAttention 与 KV 缓存优化(⭐⭐⭐⭐)
- 来源: CSDN 博客 — Moolight_shadow
- 链接: https://blog.csdn.net/Moolight_shadow/article/details/146591793
- 标题: vLLM:高性能大语言模型推理框架源码解析与最佳实践
- 标题2: vLLM推理加速深度解读:PagedAttention如何提升10x吞吐量
- 链接2: https://blog.csdn.net/yangyy753/article/details/161459100
- 标题3: vllm源码解析(六):LLM推理中的KV缓存优化策略
- 链接3: https://blog.csdn.net/g8f9d0s1a2/article/details/154902607
- 核心观点(三篇综合):
- PagedAttention 核心原理:受操作系统虚拟内存分页启发,将 KV Cache 按 block 管理,支持非连续存储,解决显存碎片化
- vLLM 源码调用链路:Model runner → Worker → CUDA Kernel → PagedAttention block manager
- KV 缓存优化策略:Prefix caching(共享前缀)、Chunked prefill(chunk 级别调度)、Autogressive cache(解码加速)
- 源码分析覆盖:block 分配/释放、attention score 计算、scheduler 调度逻辑
- 工程价值: 高——源码级解读,适合深度定制 vLLM 的团队;PagedAttention 是现代推理引擎标配
- 版本信息: vLLM 主线版本(2025-2026),CUDA 12+
- 可信度: 中高——三篇均有 500+ 阅读,评论有互动,代码路径可对照
- 后续行动: 建议归入「推理框架源码」收藏系列,与 SGLang 源码分析文章配对阅读
9. CSDN · SGLang 框架原理、源码与 vLLM 对比(⭐⭐⭐⭐)
- 来源: CSDN 博客 — Lumos_Lovegood / brandy
- 链接: https://blog.csdn.net/Lumos_Lovegood/article/details/157131638
- 链接2: https://blog.csdn.net/brandy/article/details/155517690
- 核心观点:
- SGLang 核心优势:RadixAttention(前缀树结构复用 KV)、多 LoRA 批处理机制、自动填充(Auto-Prefill)、连续批处理
- SGLang vs vLLM 架构哲学:vLLM 走"保守稳定"路线(广泛适配),SGLang 走"激进性能"路线(深度优化特定模型)
- 实测性能:SGLang 在长序列+多轮场景下吞吐领先 vLLM 30-50%;vLLM 在多模态/小模型场景生态更成熟
- SGLang 源码解析:Frontend (Python) → Backend (Torch) → CUDA Extensions → Attention Kernel
- 场景适配:高并发短请求 → vLLM;长序列多轮 → SGLang;需要结构化输出 → SGLang(内置约束解码)
- 工程价值: 高——选型决策有数据支撑,不是简单罗列
- 后续行动: 建议与上午场 vLLM 源码分析配对,建立推理框架对比知识页
10. CSDN · RL 训推共卡:SGLang/vLLM 无缝切换(⭐⭐⭐)
- 来源: CSDN 博客 — u012605037
- 链接: https://blog.csdn.net/u012605037/article/details/159384900
- 标题: 降低RL训推共卡开销:SGLang/vLLM的无缝切换实现与分析
- 核心观点:
- 强化学习训练与推理共用 GPU 场景下,框架切换开销显著
- 提出统一 API 抽象层实现 SGLang/vLLM 底层引擎透明切换
- 单机多模型环境下,减少框架重复部署,降低运维复杂度
- 实战价值:国内 RL + LLM 联合训练场景
- 工程价值: 中高——RL 应用团队直接受益
- 可信度: 中(具体实现方案,需核实代码时效性)
- 后续行动: 适合作为 RL+LLM 联合训练知识页参考
📂 分类标签
#Inference-Engineering #KV-Cache #PagedAttention #RadixAttention
#DualPath #Continuum #SideQuest #Prefix-Caching #Context-Engineering
#Long-Context #Sparse-Attention #Linear-Attention #MiniCPM-SALA
#Lighthouse-Attention #SGLang #vLLM #Continuum-TTL #arXiv
#CSDN-Source-Code #Agentic-Inference #Production-AI
📋 建议写入路径
| 条目 | 路径 | 操作 |
|---|---|---|
| DualPath + Continuum + SideQuest | /shared/research-kb/inbox/jay/2026-06-22-kvcache-eviction-agentic-arxiv.md |
新建,精读3篇 |
| MiniCPM-SALA + Lighthouse Attention | /shared/research-kb/inbox/jay/2026-06-22-long-context-hybrid-attention-arxiv.md |
新建 |
| Context Engineering for Production AI | /shared/research-kb/inbox/jay/2026-06-22-context-engineering-production-agents.md |
新建 |
| Efficient Attention Survey | /shared/research-kb/inbox/jay/2026-06-22-efficient-attention-survey-arxiv.md |
新建,加入主题页 |
| vLLM 源码系列(CSDN x3) | /shared/research-kb/inbox/jay/2026-06-22-csdn-vllm-source-analysis.md |
新建,归档 |
| SGLang vs vLLM 对比(CSDN) | /shared/research-kb/inbox/jay/2026-06-22-csdn-sglang-vllm-comparison.md |
新建 |
| RL 训推共卡 SGLang/vLLM | /shared/research-kb/inbox/jay/2026-06-22-csdn-rl-sglang-vllm-switch.md |
新建 |
🔍 本次 Substack 来源记录
| 作者/机构 | 专栏 | 可信度 | 主题 |
|---|---|---|---|
| Nate | natesnewsletter.substack.com | ⭐⭐⭐⭐ 高 | RAG → Knowledge Layer,Agentic 失败模式分析 |
| Simon Willison | simonw.substack.com | ⭐⭐⭐⭐⭐ 极高 | LLM Predictions 2026,sandboxing 安全 |
Substack 来源相对少(上午场已覆盖 5 个高质量 Substack),下午场以 arXiv 系统论文为主。
✅ 后续行动
- 精读组合包(下午): DualPath + Continuum + SideQuest → KV Cache 管理专题
- 精读组合包(长上下文): MiniCPM-SALA + Lighthouse Attention + Efficient Attention Survey
- CSDN 源码系列归档: 建议建立
inference-frameworks/子目录,vLLM/SGLang 源码分析集中管理 - 主题页更新: 新建「推理系统工程」主题页,整合 KV Cache eviction / Prefix Caching / Context Engineering;或扩充现有「Inference Engineering」页
- OpenClaw 关联: Context Engineering 文章(Spheron)与 OpenClaw 当前 session/context 管理机制对比,值得评估借鉴
📝 本次与上午场去重说明
| 主题 | 上午场 | 下午场 | 去重说明 |
|---|---|---|---|
| RAG | ✅ Agentic RAG Survey | 无 | 下午聚焦推理系统,不重复 |
| Mamba | ✅ Mamba-3 | MiniCPM-SALA(新) | 不同模型,不同角度 |
| Agent Stack | ✅ Stack 2026 x2 | 无 | 下午聚焦 infra,不重复 |
| RAG 2026 | ✅ RAG in 2026 Substack | 无 | 下午无 RAG 内容 |
| 推理框架 | 少量涉及 | vLLM+SGLang 深度 | 完全新内容 |
草稿整理:Jay · 2026-06-22 下午场 · 共收录 10 个高价值条目 · arXiv 占 5 篇 · CSDN 源码分析占 4 篇 · 技术博客 1 篇