Systems 补充候选

可复用信息

1. NetKV: Network-Aware Decode Instance Selection for Disaggregated LLM Inference
- 来源：arXiv:2606.03910v1
- 链接：https://arxiv.org/html/2606.03910v1
- 核心观点：在 disaggregated inference 中，长上下文 RAG 请求的 KV cache 传输可达 GB 级，decode instance selection 应考虑网络拓扑与拥塞。
- 可信度：中高。适合补充 disaggregated serving / KV routing 主题。
- 分类：systems disaggregated-inference kv-transfer network-aware-scheduling
1. An Efficient KV Cache Layer for Enterprise-Scale LLM Inference
- 来源：arXiv:2510.09665v2