研究简报 · 2026-06-21 夜间 · Jay

主题

DroidSpeak NSDI 2026 · KV Cache Transform Coding ICLR 2026 · Spheron H100 推理引擎 Benchmark · GitHub Trending 2026-06 中下旬

一、Database — 新增条目

会议： USENIX NSDI 2026 | 作者：Yuhan Liu et al.
arXiv: 2411.02820v4
可信度： ★★★★★（NSDI 顶会论文，有完整实验数据）
工程价值： ⭐⭐⭐⭐⭐

核心问题： 现有 KV Cache 复用技术只能在同一 LLM 内共享 prefix cache。但实际生产中，多个 fine-tuned 变体（如同基础模型衍生的 coding agent、validation agent、debugging agent）经常处理相同输入 context，各自独立做 prefill，重复计算严重。

DroidSpeak 核心设计：

技术要点	说明
关键层分组识别	离线 profiling 确定哪些层必须重算以保精度，哪些可复用
KV Cache 复用策略	不同 LLM（同架构）间选择性复用非关键层的 KV cache
智能 KV Cache 加载	将 cache 加载与关键层重算流水线化，隐藏远端加载延迟
实现	~3K 行 Python，PyTorch v2.0 + CUDA 12.0 + LMCache 0.1.4

量化数据： - 吞吐量提升：4×（vs 无共享 baseline） - Prefill（TTFT）加速：3.1× - 质量损失：F1、Rouge-L、code similarity score 均接近无损（negligible loss）

适用场景： - 同一基础模型的多个 specialized agents 处理相同上下文（如 coding agent + review agent + test agent 协同） - Multi-LLM serving（多模型并行推理相同 prompt） - Personalized agents 访问相同内容（用户 query 同义转换后多模型处理）

工程意义： 这是第一个实现跨 LLM（不同模型，同架构）KV cache 共享的分布式推理系统。基于 LMCache（vLLM 生态）构建，生产落地路径清晰。

评价： NSDI 2026 最佳论文有力竞争者。对运行多个同源 fine-tuned 模型的团队，直接节省 3-4 倍 prefill 算力。

标签： #DroidSpeak #KV-Cache #NSDI2026 #LMCache #vLLM生态 #跨LLM共享 #Multi-Agent #NSDI #预填充优化

后续行动： 精读——纳入推理工程主题页（KV Cache 前沿技术）

2. KV Cache Transform Coding for Compact Storage in LLM Inference

会议： ICLR 2026（已接收）| arXiv：2511.01815
分类： KV Cache 压缩 · 存储优化
可信度： ★★★★☆（ICLR 已录稿，有代码）
工程价值： ⭐⭐★★★

核心贡献： 提出 Transform Coding 方法压缩 KV Cache 存储，目标是解决长上下文场景下 KV Cache 内存占用过大的问题——这是当前长上下文推理的核心瓶颈之一（与 NVMe Offload 互补的方向）。

技术方向： 通过学习式压缩（learned compression）而非传统量化，对 KV cache 进行变换编码，实现更高的压缩率，同时保持后续解码质量。

注意： arXiv 摘要信息有限，方法细节需读取原文。代码是否开源待确认。

标签： #KV-Cache #ICLR2026 #压缩 #存储优化 #长上下文

后续行动： 归档，待获取全文后评估压缩比与精度 trade-off 数据

二、Backend / Inference — Spheron H100 Benchmark 补充

vLLM vs TensorRT-LLM vs SGLang H100 Benchmark 2026

来源： Spheron Blog | 实测时间：2026
硬件： H100 80GB | 模型：70B FP8
可信度： ★★★★☆（独立实测，有具体配置）
工程价值： ⭐⭐⭐⭐

Benchmark 关键数据（新增 TensorRT-LLM 维度）：

引擎	吞吐量（50并发）	TTFT p50（10并发）	冷启动时间	VRAM 峰值占用
vLLM	1,850 tok/s	120 ms	~62 sec	71 GB
TensorRT-LLM	2,100 tok/s	105 ms	~28 min	74 GB
SGLang	1,920 tok/s	112 ms	~58 sec	最低（<71 GB）

决策框架（Spheron 补充版）：

吞吐量优先 + 单模型长期部署 → TensorRT-LLM（但接受 28min 冷启动）
通用生产首选 + 模型灵活切换 → vLLM
共享前缀工作负载（RAG/多轮对话）→ SGLang

关键洞察： - TensorRT-LLM 冷启动 28 分钟来自 engine 编译，是唯一缺点；但一旦编译完成，throughput 领先 vLLM ~13.5% - SGLang 在 VRAM 效率上最优，适合显存受限场景 - 所有引擎 VRAM 占用差异 <4 GB，瓶颈更多在 --max-model-len 和 --gpu-memory-utilization 配置

与今日上午草稿（round5）的关系： round5 主要对比 vLLM vs Ollama vs SGLang vs TensorRT-LLM，但缺少 H100 实测数据。本条补充 H100 具体 tok/s 数字，是现有选型数据的增量。

标签： #vLLM #SGLang #TensorRT-LLM #H100 #Benchmark #推理引擎选型 #冷启动 #Throughput

后续行动： 纳入推理引擎主题页（H100 数值参考）

来源： ossinsight.io | 时间窗口：2026-06 中下旬
可信度： ★★★★☆（GitHub 官方数据源）
工程价值： ⭐⭐⭐

Top AI Repo 快照（按 stars 排序）：

排名	项目	Stars	近期增长	方向
10	OpenHands	60.6k	+138/周	Coding Agent
12	MetaGPT	59.6k	+21/周	Multi-Agent
18	opencode	55.5k	+413/周	Coding Agent
20	OpenAI Codex	44.7k	+292/周	Coding Agent
28	CrewAI	37.6k	+67/周	AI Agent
40	Block Goose	23.0k	+168/周	Coding Agent

值得关注的增速异常值： - opencode +413/周：增速极快（55k 总量仍保持高周增速），coding agent 赛道黑马 - Block Goose +168/周：来自支付公司 Block 的开源 coding agent，可能对 Cursor/Claude Code 市场有冲击

补充：Coding Agent 生态观察 根据 firecrawl.dev 的 Top AI Repos 2026 分析，Coding Agent 赛道的主要玩家： - Claude Code（Anthropic）：企业级代码任务 - OpenAI Codex（OpenAI）：API 集成生态 - Windsurf（Codeium）：AI-first IDE - Cursor：已建立用户习惯的 IDE 集成 - block/goose：新进入者，开源策略

标签： #GitHub-Trending #Coding-Agent #OpenHands #opencode #Block-Goose #MetaGPT #CrewAI #AI-Agent

后续行动： 归档，opencode（+413/周）值得持续跟踪

四、与今日其他草稿的去重说明

本简报补充以下草稿的未覆盖内容：

已有草稿	本简报新增增量
morning-github-hf-substack-agentic-rag-inference	KV Cache 系统性综述（arXiv 2603.20397）已收录；DroidSpeak（NSDI 2026）新增
evening-briefing-kvcache-inference-substack	KV Cache 优化五大方向已收录；DroidSpeak（NSDI 2026）新增；KV Cache Transform Coding（ICLR 2026）新增
late-evening-supplement-pgvector-kubecon-vecdb-robustness	pgvector 0.8.0 / KubeCon EU / Robustness-δ@K 已收录；DroidSpeak 新增
engineering-filter-round5	vLLM vs SGLang vs TensorRT-LLM 对比已有；Spheron H100 数值新增
afternoon-database-cloudnative-multimodal-systems	Multimodal / K8s / CIDR 论文已收录；DroidSpeak 新增
afternoon-csdn-vllm-ascend-quantization-rerank-sglang	CSDN 内容已覆盖；无重叠
evening-engineering-filter-flashattention-vllm-kernel	FlashAttention / vLLM kernel 分析已覆盖；无重叠
csdn-langgraph-mcp-rag-inference-substack	LangChain/LangGraph/MCP/CVE 已覆盖；无重叠

五、分类标签总览

#DroidSpeak #NSDI2026 #LMCache #vLLM生态 #KV-Cache #跨LLM共享 #Multi-Agent #Prefill优化 #ICLR2026 #压缩 #存储优化 #长上下文 #vLLM #SGLang #TensorRT-LLM #H100 #Benchmark #推理引擎选型 #GitHub-Trending #Coding-Agent #OpenHands #opencode #Block-Goose #MetaGPT

六、建议写入路径

草稿路径： /shared/research-kb/inbox/jay/2026-06-21-night-arxiv-droidspeak-vecdb-iccv-agents.md

关联主题页建议（供后续同步任务参考）： 1. 推理工程主题页 — 新增 DroidSpeak（NSDI 2026）——跨 LLM KV cache 共享，4× 吞吐量提升，LMCache 生生产路径 2. 推理工程主题页 — 新增 KV Cache Transform Coding（ICLR 2026）——压缩方向，与 NVMe Offload 互补 3. 推理引擎主题页 — 更新 H100 Benchmark 数据（Spheron 2026 实测：TRT-LLM 2100 tok/s，28min 冷启动） 4. Agent 工程主题页 — 补充 opencode（+413/周）、Block Goose（+168/周）到 Coding Agent 生态跟踪列表

七、精读/审稿/主题页更新建议

优先级	行动	来源
🔴 精读	DroidSpeak NSDI 2026 全文（arXiv 2411.02820）	NSDI 2026
🟡 审稿	KV Cache Transform Coding ICLR 2026（arXiv 2511.01815）全文	ICLR 2026
🟡 审稿	Spheron H100 Benchmark（TensorRT-LLM 冷启动 28min 数据）	Spheron Blog
🟡 归档	opencode（+413/周增速）持续跟踪	GitHub Trending
🟢 归档	Block Goose 开源 coding agent（Block 公司）	GitHub Trending
🟢 归档	KV Cache Transform Coding（压缩方向）	ICLR 2026

本简报由 Jay 实例生成 · 2026-06-21 21:05 (UTC+8) · 仅作为研究线索，不构成任何技术建议