📚 学术研究知识库草稿 · Jay · 2026-06-22 下午场

主题： LLM 推理系统工程 · KV Cache 管理 · 长上下文注意力机制 · SGLang/vLLM 深度对比 检索范围： arXiv、Substack、CSDN 源码分析系列、GitHub Trending 本次高频词： KV Cache Eviction、DualPath、Continuum、SideQuest、Prefix Caching、PagedAttention、MiniCPM-SALA、Lighthouse Attention、Context Engineering

🏆 高价值条目（优先精读）

1. DualPath — Agentic LLM 推理存储带宽瓶颈突破（精读 ⭐⭐⭐⭐⭐）

标题： DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference
来源： arXiv:2602.21548v1 [cs.LG]，2026 年 2 月
作者： 团队研究（机构未标明）
链接： https://arxiv.org/html/2602.21548v1
核心观点：
多轮 Agentic LLM 推理的性能瓶颈已从计算转向 KV-Cache 存储 I/O
主流解耦架构（Prefill/Decode 分离）中，Prefill 引擎的存储 NIC 带宽饱和，而 Decode 引擎的 NIC 闲置——严重失衡
DualPath 引入双路径 KV-Cache 加载：传统存储→Prefill 路径 + 新路径存储→Decode→RDMA→Prefill
全局调度器动态平衡 Prefill/Decode 负载
生产 Agentic 工作负载下，离线推理吞吐提升最高 1.87×
工程价值： 极高——解耦推理架构设计者必读，解决真实生产瓶颈
可信度： 高（arXiv 系统方向，有 eval 数据支撑）
后续行动： 建议精读，加入推理系统工程主题页

2. SideQuest — Model-Driven KV Cache 管理（精读 ⭐⭐⭐⭐⭐）

标题： SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning
来源： arXiv:2602.22603v1，2026 年 2 月
链接： https://arxiv.org/html/2602.22603v1
核心观点：
现有 KV Cache 压缩启发式方法无法有效支持多步推理模型
SideQuest 引入 Large Reasoning Model (LRM) 自身做 KV Cache 压缩——模型自己判断上下文中哪些 Token 有用
将 KV 压缩建模为与主推理任务并行的辅助任务，避免管理 Token 污染主任务
仅用 215 个样本微调，峰值 Token 使用量降低 65%，精度损失极小
超过所有基于启发式的 KV Cache 压缩方法
工程价值： 极高——开创"模型自驱动缓存管理"新方向，工程可行性强
可信度： 高（arXiv，有对比实验）
后续行动： 建议精读，对比 Continuum TTL 机制

3. Continuum — 多轮 Agent 调度的 KV Cache TTL 机制（精读 ⭐⭐⭐⭐⭐）

标题： Continuum: Efficient and Robust Multi-Turn LLM Agent Scheduling with KV Cache Time-to-Live
来源： arXiv:2511.02230v6，2025 年 11 月，2026 年持续修订
链接： https://arxiv.org/html/2511.02230v6
核心观点：
现有推理引擎在新区请求等待时驱逐已结束请求的 KV Cache——该策略在 Agentic 工作负载下失效
Agentic 负载中 LLM 调用与工具调用交错，导致暂停时间无法跨轮复用 KV
许多工具调用持续时间远短于人类响应多轮对话，保留其 KV Cache 更有价值
Continuum 核心：为 KV Cache 保留引入 Time-to-Live (TTL) 机制，基于重计算/重加载成本 + 驱逐后排队延迟动态决定保留哪些 KV
目标：优化任务完成时间（Job Completion Time）
工程价值： 高——与 vLLM/SGLang 调度层直接相关，生产 Agent 推理优化必读
可信度： 高（arXiv，有详尽 eval）
后续行动： 与 SideQuest 对比阅读；可作为 OpenClaw 推理调度的参考实现

4. MiniCPM-SALA — 稀疏+线性注意力混合长上下文（精读 ⭐⭐⭐⭐⭐）

标题： MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling
来源： arXiv:2602.11761v2，2026 年 2 月
链接： https://arxiv.org/html/2602.11761v2
核心观点：
9B 参数混合架构：稀疏注意力（InfLLM-V2 高保真长上下文）+ 线性注意力（Lightning Attention 全局效率）
层选择算法：1:3 比例混合 + 混合位置编码（HyPE）
持续训练框架：将预训练 Transformer 模型转化为混合架构，训练成本降低约 75%
单卡 A6000D（48GB）上，256K 序列长度推理速度提升 3.5×，最高支持 1M Token 上下文
工程价值： 高——国产开源（MiniCPM），工程可复现，混合注意力设计值得借鉴
可信度： 高（已知研究团队，有开源实现）
后续行动： 建议加入「长上下文技术选型」主题页

5. Lighthouse Attention — 长上下文预训练新范式（精读 ⭐⭐⭐⭐）

标题： Long Context Pre-Training with Lighthouse Attention
来源： arXiv:2605.06554，2026 年 5 月
链接： https://arxiv.org/html/2605.06554v1
核心观点：
训练因果 Transformer 时，超长序列的瓶颈在于 SDPA 的二次时间/内存复杂度
Lighthouse Attention：基于选择的对称层级注意力，在多层金字塔上对称池化 Q,K,V
两阶段训练：大部分训练时间用 Lighthouse Attention，最后用短期训练恢复完整注意力模型
优势：训练总时间更短，最终 loss 更低，推理时可完全移除 Lighthouse
核心创新：参数无关的评分器（parameter-free scorer） + 融合分块双调核（fused chunked-bitonic kernel） 选择 Top-K
工程价值： 高——预训练效率优化，适合训练基础设施团队
可信度： 中高（arXiv，有小规模预训练实验）
后续行动： 与 MiniCPM-SALA 混合注意力路线对比

6. Context Engineering for Production AI Agents — Spheron 技术博客（⭐⭐⭐⭐）

标题： Context Engineering for Production AI Agents: KV Cache, Prefix Caching, and Long-Context GPU Economics (2026 Guide)
来源： Spheron Network Blog（https://www.spheron.network）
链接： https://www.spheron.network/blog/context-engineering-production-ai-agents-kv-cache-long-context
核心观点：
核心数据：ReAct Agent 做 10 次工具调用，总输出 500 Token，但输入 Token 总量达 800,000（每次携带完整系统提示词+工具 Schema+对话历史）
Prefill 阶段（80,000 输入 Token）耗时秒级，每次调用都要重复付费
Context Engineering = 决定上下文放什么、以什么顺序、如何缓存和压缩，以最小化 prefill 计算而不损失输出质量
Context Engineering 位于 Agent 框架与推理服务器之间
KV Cache Hit Rate 是第一成本杠杆
技术手段：Prefix Caching、Semantic Caching、Cache Preload、RAG-assist 等
工程价值： 高——生产 Agent 成本优化实战指南，指标清晰（800K input vs 500 output）
可信度： 高（工程团队实战，有具体数字）
后续行动： 建议加入 Agent 工程化主题页，与 OpenClaw 当前 Context 管理方案对比

7. Efficient Attention Mechanisms for LLMs — 系统综述（精读 ⭐⭐⭐⭐）

标题： Efficient Attention Mechanisms for Large Language Models: A Survey
来源： arXiv:2507.19595v3，2025 年 7 月（2026 年持续更新）
链接： https://arxiv.org/html/2507.19595v3
核心观点：
全面综述高效注意力机制：线性注意力（Linear Attention）、稀疏注意力（Sparse Attention）及其混合设计
Linear Attention 代表：Mamba (SSM)、GLA (Global Linear Attention)、DeltaNet、RetNet
Sparse Attention 代表：SparseTransformer、MInference、Jiang2024MInference、NSA、Moba
综述分析了将高效注意力整合进大规模预训练 LLM 的两条路线：全高效注意力架构 vs 混合设计
涵盖 kernel 级别优化与分布式上下文并行策略
工程价值： 高——高效注意力机制全景图，适合建立技术选型框架
可信度： 高（arXiv 综述，持续更新）
后续行动： 作为知识库「长上下文技术选型」主题页核心参考

8. CSDN · vLLM 源码解析：PagedAttention 与 KV 缓存优化（⭐⭐⭐⭐）

来源： CSDN 博客 — Moolight_shadow
链接： https://blog.csdn.net/Moolight_shadow/article/details/146591793
标题： vLLM：高性能大语言模型推理框架源码解析与最佳实践
标题2： vLLM推理加速深度解读：PagedAttention如何提升10x吞吐量
链接2： https://blog.csdn.net/yangyy753/article/details/161459100
标题3： vllm源码解析(六)：LLM推理中的KV缓存优化策略
链接3： https://blog.csdn.net/g8f9d0s1a2/article/details/154902607
核心观点（三篇综合）：
PagedAttention 核心原理：受操作系统虚拟内存分页启发，将 KV Cache 按 block 管理，支持非连续存储，解决显存碎片化
vLLM 源码调用链路：Model runner → Worker → CUDA Kernel → PagedAttention block manager
KV 缓存优化策略：Prefix caching（共享前缀）、Chunked prefill（chunk 级别调度）、Autogressive cache（解码加速）
源码分析覆盖：block 分配/释放、attention score 计算、scheduler 调度逻辑
工程价值： 高——源码级解读，适合深度定制 vLLM 的团队；PagedAttention 是现代推理引擎标配
版本信息： vLLM 主线版本（2025-2026），CUDA 12+
可信度： 中高——三篇均有 500+ 阅读，评论有互动，代码路径可对照
后续行动： 建议归入「推理框架源码」收藏系列，与 SGLang 源码分析文章配对阅读

9. CSDN · SGLang 框架原理、源码与 vLLM 对比（⭐⭐⭐⭐）

来源： CSDN 博客 — Lumos_Lovegood / brandy
链接： https://blog.csdn.net/Lumos_Lovegood/article/details/157131638
链接2： https://blog.csdn.net/brandy/article/details/155517690
核心观点：
SGLang 核心优势：RadixAttention（前缀树结构复用 KV）、多 LoRA 批处理机制、自动填充（Auto-Prefill）、连续批处理
SGLang vs vLLM 架构哲学：vLLM 走"保守稳定"路线（广泛适配），SGLang 走"激进性能"路线（深度优化特定模型）
实测性能：SGLang 在长序列+多轮场景下吞吐领先 vLLM 30-50%；vLLM 在多模态/小模型场景生态更成熟
SGLang 源码解析：Frontend (Python) → Backend (Torch) → CUDA Extensions → Attention Kernel
场景适配：高并发短请求 → vLLM；长序列多轮 → SGLang；需要结构化输出 → SGLang（内置约束解码）
工程价值： 高——选型决策有数据支撑，不是简单罗列
后续行动： 建议与上午场 vLLM 源码分析配对，建立推理框架对比知识页

10. CSDN · RL 训推共卡：SGLang/vLLM 无缝切换（⭐⭐⭐）

来源： CSDN 博客 — u012605037
链接： https://blog.csdn.net/u012605037/article/details/159384900
标题： 降低RL训推共卡开销：SGLang/vLLM的无缝切换实现与分析
核心观点：
强化学习训练与推理共用 GPU 场景下，框架切换开销显著
提出统一 API 抽象层实现 SGLang/vLLM 底层引擎透明切换
单机多模型环境下，减少框架重复部署，降低运维复杂度
实战价值：国内 RL + LLM 联合训练场景
工程价值： 中高——RL 应用团队直接受益
可信度： 中（具体实现方案，需核实代码时效性）
后续行动： 适合作为 RL+LLM 联合训练知识页参考

📂 分类标签

#Inference-Engineering #KV-Cache #PagedAttention #RadixAttention
#DualPath #Continuum #SideQuest #Prefix-Caching #Context-Engineering
#Long-Context #Sparse-Attention #Linear-Attention #MiniCPM-SALA
#Lighthouse-Attention #SGLang #vLLM #Continuum-TTL #arXiv
#CSDN-Source-Code #Agentic-Inference #Production-AI

📋 建议写入路径

条目	路径	操作
DualPath + Continuum + SideQuest	`/shared/research-kb/inbox/jay/2026-06-22-kvcache-eviction-agentic-arxiv.md`	新建，精读3篇
MiniCPM-SALA + Lighthouse Attention	`/shared/research-kb/inbox/jay/2026-06-22-long-context-hybrid-attention-arxiv.md`	新建
Context Engineering for Production AI	`/shared/research-kb/inbox/jay/2026-06-22-context-engineering-production-agents.md`	新建
Efficient Attention Survey	`/shared/research-kb/inbox/jay/2026-06-22-efficient-attention-survey-arxiv.md`	新建，加入主题页
vLLM 源码系列（CSDN x3）	`/shared/research-kb/inbox/jay/2026-06-22-csdn-vllm-source-analysis.md`	新建，归档
SGLang vs vLLM 对比（CSDN）	`/shared/research-kb/inbox/jay/2026-06-22-csdn-sglang-vllm-comparison.md`	新建
RL 训推共卡 SGLang/vLLM	`/shared/research-kb/inbox/jay/2026-06-22-csdn-rl-sglang-vllm-switch.md`	新建

🔍 本次 Substack 来源记录

作者/机构	专栏	可信度	主题
Nate	natesnewsletter.substack.com	⭐⭐⭐⭐ 高	RAG → Knowledge Layer，Agentic 失败模式分析
Simon Willison	simonw.substack.com	⭐⭐⭐⭐⭐ 极高	LLM Predictions 2026，sandboxing 安全

Substack 来源相对少（上午场已覆盖 5 个高质量 Substack），下午场以 arXiv 系统论文为主。

✅ 后续行动

精读组合包（下午）： DualPath + Continuum + SideQuest → KV Cache 管理专题
精读组合包（长上下文）： MiniCPM-SALA + Lighthouse Attention + Efficient Attention Survey
CSDN 源码系列归档： 建议建立 inference-frameworks/ 子目录，vLLM/SGLang 源码分析集中管理
主题页更新： 新建「推理系统工程」主题页，整合 KV Cache eviction / Prefix Caching / Context Engineering；或扩充现有「Inference Engineering」页
OpenClaw 关联： Context Engineering 文章（Spheron）与 OpenClaw 当前 session/context 管理机制对比，值得评估借鉴

📝 本次与上午场去重说明

主题	上午场	下午场	去重说明
RAG	✅ Agentic RAG Survey	无	下午聚焦推理系统，不重复
Mamba	✅ Mamba-3	MiniCPM-SALA（新）	不同模型，不同角度
Agent Stack	✅ Stack 2026 x2	无	下午聚焦 infra，不重复
RAG 2026	✅ RAG in 2026 Substack	无	下午无 RAG 内容
推理框架	少量涉及	vLLM+SGLang 深度	完全新内容

草稿整理：Jay · 2026-06-22 下午场 · 共收录 10 个高价值条目 · arXiv 占 5 篇 · CSDN 源码分析占 4 篇 · 技术博客 1 篇