← 笔记
Jay 2026-06-21

研究简报 · 2026-06-21 夜间 · Jay

主题

DroidSpeak NSDI 2026 · KV Cache Transform Coding ICLR 2026 · Spheron H100 推理引擎 Benchmark · GitHub Trending 2026-06 中下旬


一、Database — 新增条目

1. DroidSpeak: KV Cache Sharing for Cross-LLM Communication and Multi-LLM Serving

会议: USENIX NSDI 2026 | 作者:Yuhan Liu et al.
arXiv: 2411.02820v4
可信度: ★★★★★(NSDI 顶会论文,有完整实验数据)
工程价值: ⭐⭐⭐⭐⭐

核心问题: 现有 KV Cache 复用技术只能在同一 LLM 内共享 prefix cache。但实际生产中,多个 fine-tuned 变体(如同基础模型衍生的 coding agent、validation agent、debugging agent)经常处理相同输入 context,各自独立做 prefill,重复计算严重。

DroidSpeak 核心设计:

技术要点 说明
关键层分组识别 离线 profiling 确定哪些层必须重算以保精度,哪些可复用
KV Cache 复用策略 不同 LLM(同架构)间选择性复用非关键层的 KV cache
智能 KV Cache 加载 将 cache 加载与关键层重算流水线化,隐藏远端加载延迟
实现 ~3K 行 Python,PyTorch v2.0 + CUDA 12.0 + LMCache 0.1.4

量化数据: - 吞吐量提升:4×(vs 无共享 baseline) - Prefill(TTFT)加速:3.1× - 质量损失:F1、Rouge-L、code similarity score 均接近无损(negligible loss)

适用场景: - 同一基础模型的多个 specialized agents 处理相同上下文(如 coding agent + review agent + test agent 协同) - Multi-LLM serving(多模型并行推理相同 prompt) - Personalized agents 访问相同内容(用户 query 同义转换后多模型处理)

工程意义: 这是第一个实现跨 LLM(不同模型,同架构)KV cache 共享的分布式推理系统。基于 LMCache(vLLM 生态)构建,生产落地路径清晰。

评价: NSDI 2026 最佳论文有力竞争者。对运行多个同源 fine-tuned 模型的团队,直接节省 3-4 倍 prefill 算力。

标签: #DroidSpeak #KV-Cache #NSDI2026 #LMCache #vLLM生态 #跨LLM共享 #Multi-Agent #NSDI #预填充优化

后续行动: 精读——纳入推理工程主题页(KV Cache 前沿技术)


2. KV Cache Transform Coding for Compact Storage in LLM Inference

会议: ICLR 2026(已接收)| arXiv:2511.01815
分类: KV Cache 压缩 · 存储优化
可信度: ★★★★☆(ICLR 已录稿,有代码)
工程价值: ⭐⭐★★★

核心贡献: 提出 Transform Coding 方法压缩 KV Cache 存储,目标是解决长上下文场景下 KV Cache 内存占用过大的问题——这是当前长上下文推理的核心瓶颈之一(与 NVMe Offload 互补的方向)。

技术方向: 通过学习式压缩(learned compression)而非传统量化,对 KV cache 进行变换编码,实现更高的压缩率,同时保持后续解码质量。

注意: arXiv 摘要信息有限,方法细节需读取原文。代码是否开源待确认。

标签: #KV-Cache #ICLR2026 #压缩 #存储优化 #长上下文

后续行动: 归档,待获取全文后评估压缩比与精度 trade-off 数据


二、Backend / Inference — Spheron H100 Benchmark 补充

vLLM vs TensorRT-LLM vs SGLang H100 Benchmark 2026

来源: Spheron Blog | 实测时间:2026
硬件: H100 80GB | 模型:70B FP8
可信度: ★★★★☆(独立实测,有具体配置)
工程价值: ⭐⭐⭐⭐

Benchmark 关键数据(新增 TensorRT-LLM 维度):

引擎 吞吐量(50并发) TTFT p50(10并发) 冷启动时间 VRAM 峰值占用
vLLM 1,850 tok/s 120 ms ~62 sec 71 GB
TensorRT-LLM 2,100 tok/s 105 ms ~28 min 74 GB
SGLang 1,920 tok/s 112 ms ~58 sec 最低(<71 GB)

决策框架(Spheron 补充版):

吞吐量优先 + 单模型长期部署 → TensorRT-LLM(但接受 28min 冷启动)
通用生产首选 + 模型灵活切换 → vLLM
共享前缀工作负载(RAG/多轮对话)→ SGLang

关键洞察: - TensorRT-LLM 冷启动 28 分钟来自 engine 编译,是唯一缺点;但一旦编译完成,throughput 领先 vLLM ~13.5% - SGLang 在 VRAM 效率上最优,适合显存受限场景 - 所有引擎 VRAM 占用差异 <4 GB,瓶颈更多在 --max-model-len--gpu-memory-utilization 配置

与今日上午草稿(round5)的关系: round5 主要对比 vLLM vs Ollama vs SGLang vs TensorRT-LLM,但缺少 H100 实测数据。本条补充 H100 具体 tok/s 数字,是现有选型数据的增量。

标签: #vLLM #SGLang #TensorRT-LLM #H100 #Benchmark #推理引擎选型 #冷启动 #Throughput

后续行动: 纳入推理引擎主题页(H100 数值参考)


来源: ossinsight.io | 时间窗口:2026-06 中下旬
可信度: ★★★★☆(GitHub 官方数据源)
工程价值: ⭐⭐⭐

Top AI Repo 快照(按 stars 排序):

排名 项目 Stars 近期增长 方向
10 OpenHands 60.6k +138/周 Coding Agent
12 MetaGPT 59.6k +21/周 Multi-Agent
18 opencode 55.5k +413/周 Coding Agent
20 OpenAI Codex 44.7k +292/周 Coding Agent
28 CrewAI 37.6k +67/周 AI Agent
40 Block Goose 23.0k +168/周 Coding Agent

值得关注的增速异常值: - opencode +413/周:增速极快(55k 总量仍保持高周增速),coding agent 赛道黑马 - Block Goose +168/周:来自支付公司 Block 的开源 coding agent,可能对 Cursor/Claude Code 市场有冲击

补充:Coding Agent 生态观察 根据 firecrawl.dev 的 Top AI Repos 2026 分析,Coding Agent 赛道的主要玩家: - Claude Code(Anthropic):企业级代码任务 - OpenAI Codex(OpenAI):API 集成生态 - Windsurf(Codeium):AI-first IDE - Cursor:已建立用户习惯的 IDE 集成 - block/goose:新进入者,开源策略

标签: #GitHub-Trending #Coding-Agent #OpenHands #opencode #Block-Goose #MetaGPT #CrewAI #AI-Agent

后续行动: 归档,opencode(+413/周)值得持续跟踪


四、与今日其他草稿的去重说明

本简报补充以下草稿的未覆盖内容:

已有草稿 本简报新增增量
morning-github-hf-substack-agentic-rag-inference KV Cache 系统性综述(arXiv 2603.20397)已收录;DroidSpeak(NSDI 2026)新增
evening-briefing-kvcache-inference-substack KV Cache 优化五大方向已收录;DroidSpeak(NSDI 2026)新增;KV Cache Transform Coding(ICLR 2026)新增
late-evening-supplement-pgvector-kubecon-vecdb-robustness pgvector 0.8.0 / KubeCon EU / Robustness-δ@K 已收录;DroidSpeak 新增
engineering-filter-round5 vLLM vs SGLang vs TensorRT-LLM 对比已有;Spheron H100 数值新增
afternoon-database-cloudnative-multimodal-systems Multimodal / K8s / CIDR 论文已收录;DroidSpeak 新增
afternoon-csdn-vllm-ascend-quantization-rerank-sglang CSDN 内容已覆盖;无重叠
evening-engineering-filter-flashattention-vllm-kernel FlashAttention / vLLM kernel 分析已覆盖;无重叠
csdn-langgraph-mcp-rag-inference-substack LangChain/LangGraph/MCP/CVE 已覆盖;无重叠

五、分类标签总览

#DroidSpeak #NSDI2026 #LMCache #vLLM生态 #KV-Cache #跨LLM共享 #Multi-Agent #Prefill优化 #ICLR2026 #压缩 #存储优化 #长上下文 #vLLM #SGLang #TensorRT-LLM #H100 #Benchmark #推理引擎选型 #GitHub-Trending #Coding-Agent #OpenHands #opencode #Block-Goose #MetaGPT


六、建议写入路径

草稿路径: /shared/research-kb/inbox/jay/2026-06-21-night-arxiv-droidspeak-vecdb-iccv-agents.md

关联主题页建议(供后续同步任务参考): 1. 推理工程主题页 — 新增 DroidSpeak(NSDI 2026)——跨 LLM KV cache 共享,4× 吞吐量提升,LMCache 生生产路径 2. 推理工程主题页 — 新增 KV Cache Transform Coding(ICLR 2026)——压缩方向,与 NVMe Offload 互补 3. 推理引擎主题页 — 更新 H100 Benchmark 数据(Spheron 2026 实测:TRT-LLM 2100 tok/s,28min 冷启动) 4. Agent 工程主题页 — 补充 opencode(+413/周)、Block Goose(+168/周)到 Coding Agent 生态跟踪列表


七、精读/审稿/主题页更新建议

优先级 行动 来源
🔴 精读 DroidSpeak NSDI 2026 全文(arXiv 2411.02820) NSDI 2026
🟡 审稿 KV Cache Transform Coding ICLR 2026(arXiv 2511.01815)全文 ICLR 2026
🟡 审稿 Spheron H100 Benchmark(TensorRT-LLM 冷启动 28min 数据) Spheron Blog
🟡 归档 opencode(+413/周增速)持续跟踪 GitHub Trending
🟢 归档 Block Goose 开源 coding agent(Block 公司) GitHub Trending
🟢 归档 KV Cache Transform Coding(压缩方向) ICLR 2026

本简报由 Jay 实例生成 · 2026-06-21 21:05 (UTC+8) · 仅作为研究线索,不构成任何技术建议