工程实践筛选补遗｜2026-06-24 Evening

一、本次筛选主题

对今日 inbox 已覆盖范围进行二次扫描，发现两篇未收录的 arXiv LLM 系统论文，均具有工程实操价值。

二、保留条目

2.1【保留】PipeMax：Pipeline Parall + KV Offload 突破 vLLM 瓶颈（arXiv 2605.02189v1）

来源： arXiv，2026-06（根据编号推断） 核心贡献： - 主流框架（vLLM/SGLang）的 PagedAttention 在 CPU-GPU KV传输中存在二维分块（按层 + 按页）导致的碎片化问题，显著影响传输效率 - PipeMax 将 pipeline parallelism（模型权重分片）与 KV cache offloading 协同设计：仅将 inactive batch 的 KV cache 卸载至 CPU 内存，保持 active batch 在 GPU - 通过 computation-data overlap 动态调度计算与 KV 传输，减少传输空泡 - 实验配置：8-GPU 节点

性能数据： - 相比 vLLM：2.51× throughput 提升 - 相比另外两个 SOTA 系统：分别 1.42× 和 1.38×

工程价值判断： - ✅ 解决多 GPU 推理中 KV cache 传输这条 silent killer 的具体方案 - ✅ 有具体 benchmark 数值（2.51× / 1.42× / 1.38× on 8-GPU） - ✅ 动机清晰：vLLM/SGLang 在 pipeline parallelism 下 KV cache 二维分块导致 CPU-GPU 传输效率差 - ⚠️ 尚未看到 code release 或主流框架集成，论文验证性偏强 - 建议： 纳入 MLSys/推理系统主题页参考；关注是否被 vLLM/SGLang 吸收

标签： #LLM推理系统 #PipelineParallelism #KVCacheOffload #arXiv #多GPU

2.2【保留】SageSched：不确定性感知 LLM 调度器（arXiv 2603.07917v2）

来源： arXiv，2026-03（根据编号推断） 核心贡献： - LLM 推理请求存在两大特征：(1) demand uncertainty（输出长度不确定）和 (2) demand hybridity（计算型 vs 内存型请求混合） - 现有调度器未充分处理这两个特征，导致 GPU 利用率不高

三大关键技术： 1. Semantic-aware history-based predictor：利用 prompt 内容 + 历史输出结果预测输出长度分布，轻量且准确，无需为每个 LLM 维护重型预测模型 2. 完整服务成本建模：同时考虑计算侧（compute）和内存侧（memory）资源争用 3. Uncertainty-aware scheduling policy：在请求成本分布已知的情况下最大化整体效率

性能数据： - 测试床实验：效率提升 28.7%

工程价值判断： - ✅ 问题定义清晰：demand uncertainty + hybridity 是生产环境真实痛点 - ✅ 核心 insight 有价值：prompt 相似度与输出长度分布相关（语义相似 → 输出相似） - ✅ 相比 vLLM 默认 FCFS 或 priority 调度，提供了更精细的调度策略 - ⚠️ 28.7% 是效率提升（具体指标待核，可能是 throughput 或 latency） - ⚠️ 尚未看到开源代码或生产部署案例 - 建议： 纳入调度器/推理系统主题页；与 vLLM scheduling policy 对比研究

标签： #LLM调度器 #不确定性调度 #请求长度预测 #arXiv #生产推理

三、综合评价

本批次两篇论文均为 MLSys 方向，聚焦推理系统的具体工程瓶颈（KV 传输效率 / 请求调度效率），有具体数值和解决思路，适合作为系统优化参考。

条目	问题域	验证强度	工程可用性
PipeMax	KV offload + PP	中（论文实验）	中期待集成
SageSched	请求调度	中（论文实验）	中期待开源

四、建议写入路径

PipeMax → /shared/research-kb/review/llm-inference-systems.md（待更新，当前为 inbox 草稿状态）
SageSched → 同上，或纳入 llm-scheduling.md 主题页

五、是否需要精读/审稿/主题页更新

PipeMax： 建议精读 Abstract + Section 3 + 实验部分；关注 KV offload 调度策略细节
SageSched： 建议精读 Section 1（问题建模）+ Section 3（三大技术）；关注预测器实现成本
主题页更新： MLSys/推理系统主题页可增加「Pipeline + Offload 协同」和「不确定性调度」两个方向