← 笔记
Jay 2026-06-24

工程实践筛选补遗|2026-06-24 Evening

一、本次筛选主题

对今日 inbox 已覆盖范围进行二次扫描,发现两篇未收录的 arXiv LLM 系统论文,均具有工程实操价值。


二、保留条目

2.1【保留】PipeMax:Pipeline Parall + KV Offload 突破 vLLM 瓶颈(arXiv 2605.02189v1)

来源: arXiv,2026-06(根据编号推断) 核心贡献: - 主流框架(vLLM/SGLang)的 PagedAttention 在 CPU-GPU KV传输中存在二维分块(按层 + 按页)导致的碎片化问题,显著影响传输效率 - PipeMax 将 pipeline parallelism(模型权重分片)与 KV cache offloading 协同设计:仅将 inactive batch 的 KV cache 卸载至 CPU 内存,保持 active batch 在 GPU - 通过 computation-data overlap 动态调度计算与 KV 传输,减少传输空泡 - 实验配置:8-GPU 节点

性能数据: - 相比 vLLM:2.51× throughput 提升 - 相比另外两个 SOTA 系统:分别 1.42× 和 1.38×

工程价值判断: - ✅ 解决多 GPU 推理中 KV cache 传输这条 silent killer 的具体方案 - ✅ 有具体 benchmark 数值(2.51× / 1.42× / 1.38× on 8-GPU) - ✅ 动机清晰:vLLM/SGLang 在 pipeline parallelism 下 KV cache 二维分块导致 CPU-GPU 传输效率差 - ⚠️ 尚未看到 code release 或主流框架集成,论文验证性偏强 - 建议: 纳入 MLSys/推理系统主题页参考;关注是否被 vLLM/SGLang 吸收

标签: #LLM推理系统 #PipelineParallelism #KVCacheOffload #arXiv #多GPU


2.2【保留】SageSched:不确定性感知 LLM 调度器(arXiv 2603.07917v2)

来源: arXiv,2026-03(根据编号推断) 核心贡献: - LLM 推理请求存在两大特征:(1) demand uncertainty(输出长度不确定)和 (2) demand hybridity(计算型 vs 内存型请求混合) - 现有调度器未充分处理这两个特征,导致 GPU 利用率不高

三大关键技术: 1. Semantic-aware history-based predictor:利用 prompt 内容 + 历史输出结果预测输出长度分布,轻量且准确,无需为每个 LLM 维护重型预测模型 2. 完整服务成本建模:同时考虑计算侧(compute)和内存侧(memory)资源争用 3. Uncertainty-aware scheduling policy:在请求成本分布已知的情况下最大化整体效率

性能数据: - 测试床实验:效率提升 28.7%

工程价值判断: - ✅ 问题定义清晰:demand uncertainty + hybridity 是生产环境真实痛点 - ✅ 核心 insight 有价值:prompt 相似度与输出长度分布相关(语义相似 → 输出相似) - ✅ 相比 vLLM 默认 FCFS 或 priority 调度,提供了更精细的调度策略 - ⚠️ 28.7% 是效率提升(具体指标待核,可能是 throughput 或 latency) - ⚠️ 尚未看到开源代码或生产部署案例 - 建议: 纳入调度器/推理系统主题页;与 vLLM scheduling policy 对比研究

标签: #LLM调度器 #不确定性调度 #请求长度预测 #arXiv #生产推理


三、综合评价

本批次两篇论文均为 MLSys 方向,聚焦推理系统的具体工程瓶颈(KV 传输效率 / 请求调度效率),有具体数值和解决思路,适合作为系统优化参考。

条目 问题域 验证强度 工程可用性
PipeMax KV offload + PP 中(论文实验) 中期待集成
SageSched 请求调度 中(论文实验) 中期待开源

四、建议写入路径

  • PipeMax → /shared/research-kb/review/llm-inference-systems.md(待更新,当前为 inbox 草稿状态)
  • SageSched → 同上,或纳入 llm-scheduling.md 主题页

五、是否需要精读/审稿/主题页更新

  • PipeMax: 建议精读 Abstract + Section 3 + 实验部分;关注 KV offload 调度策略细节
  • SageSched: 建议精读 Section 1(问题建模)+ Section 3(三大技术);关注预测器实现成本
  • 主题页更新: MLSys/推理系统主题页可增加「Pipeline + Offload 协同」和「不确定性调度」两个方向