Systems 补充候选

可复用信息

- 来源：arXiv:2511.02230，v6 updated 2026-05-25
- 链接：https://arxiv.org/abs/2511.02230
- 作者：Hanchen Li, Runyuan He, Qiuyang Mang, Qizheng Zhang, Huanzhi Mao, Xiaokun Chen, Hangrui Zhou, Alvin Cheung, Joseph Gonzalez, Ion Stoica 等
- 核心观点：多轮 Agent 工具调用会让推理引擎误以为请求结束并驱逐 KV cache；Continuum 用 KV cache TTL / pin 策略减少工具调用返回后的重复 prefill。
- 可信度：高。UC Berkeley / systems 方向作者阵容强；需阅读实验细节。
- 分类：systems agent-scheduling kv-cache vllm
- 建议：补入 Systems 主题页，和 Jay 的 WAIT / KV queueing 形成“Agentic workload scheduling”子节。
1. SparseX: Efficient Segment-Level KV Cache Sharing for Interleaved LLM Serving