📚 学术研究知识库草稿 · Jay · 2026-06-22 傍晚 18:30
主题: 向量数据库 2026 基准全览 · KVCache 工程前沿(PrefixWall / DroidSpeak / SAGA / BatchLLM)· Substack 高价值工程洞察 · Cloud-Native GPU 调度 检索范围: arXiv、Substack、Vecstore / Salt 基准、Modular Blog、Red Hat Developer、Spheron、GitHub NSDI 2026 去重说明: 今日已有 0935/1050/1105/1220/1335/1450 共 6 篇;本篇聚焦:①向量数据库 2026 横向基准(未单独成篇)②KVCache 安全/跨变体共享/调度新研究 ③Substack 新工程洞察 ④Cloud-Native GPU 编排,均未与上述重叠 Substack 来源: Substack 搜索规则(2026-06-10 启用):必须记录作者、链接、发布时间、核心观点、可信度判断及后续行动;不复制原文长段内容
🏆 高价值条目(优先精读)
🔴 数据库 / 向量数据库(⭐⭐⭐⭐⭐)
1. 向量数据库 2026 基准全览(综合多家来源)
来源: Salt Technologies AI(Salt 基准 2026 Q1)、Vecstore.app、Digital Applied、Firecrawl
核心数据(1M 向量 / 1536 维,p50/p99 延迟):
| 数据库 | p50 | p99 | 开源 | 托管起步 | 核心场景 |
|---|---|---|---|---|---|
| Qdrant | 4ms | 25ms | Apache 2.0 | $9/mo | 过滤搜索最快,OSS 首选 |
| Redis | 5ms | 20ms | RSAL/SSPL | $7/mo | 语义缓存 + 向量,70% LLM 成本节省 |
| Milvus | 6ms | 35ms | Apache 2.0 | $65/mo | 十亿级 + GPU 加速 |
| Pinecone | 8ms | 45ms | ❌ | $70/mo | 零运维 serverless |
| Weaviate | 12ms | 65ms | BSD-3 | $25/mo | 内置向量化 + hybrid search |
| pgvector | 18ms | 90ms | PostgreSQL 扩展 | 免费 | Postgres 团队 <10M 向量 |
| ChromaDB | 12ms | 70ms | Apache 2.0 | — | 原型 / 本地开发 |
| MongoDB Atlas | 22ms | 110ms | ❌ | $57/mo | 已有 MongoDB 团队 |
关键结论(2026-06 更新): - pgvector + HNSW(0.5.0+)已不再是慢速方案:在 1M 规模匹配甚至超越专用向量库;pgvectorscale(Timescale)用 DiskANN + Statistical Binary Quantization 在 5000 万向量规模达到 471 QPS / 99% recall,是 Qdrant 的 11.4 倍 - hybrid search 是 2026 标配:BM25 + 向量 + RRF 融合;Qdrant 过滤性能最强,Weaviate 原生支持最好 - 选型决策树:先看数据平台承诺(Postgres → pgvector / GCP → Vertex / 已有 Mongo → MongoDB Atlas),再看规模(<10M → pgvector / 10-100M → Qdrant / >1B → Milvus 或 Vespa) - 数字引用来源: Salt Technologies AI benchmark(CC BY 4.0 开放),Vecstore 独立评测
工程价值: 高——生产选型决策依据,具体数字可引用 可信度: 高(多来源交叉验证,含 CSV/JSON 下载链接) 后续行动: 建议纳入向量数据库主题页「2026 选型决策树」
2. Redis 8 向量搜索 vs Pinecone(⭐⭐⭐⭐)
来源: Redis Blog — "Best Open Source Vector Databases 2026" 链接: https://redis.io/blog/top-pinecone-alternatives-for-vector-search 核心观点: - Redis 8 命令延迟降低 87%,启用量化后 QPS 提升 144% - Redis vs 纯向量库:3.4×更高吞吐;vs pgvector 类扩展:9.5×更高 QPS - 语义缓存(Semantic Caching):LangCache 方案通过 Redis 缓存 LLM 响应,测试显示 LLM 成本降低 70%——这是 Pinecone 等纯向量库无法提供的差异化能力 - 统一平台优势:向量搜索与缓存/会话/消息共用同一平台,无网络开销
可信度: 中高(Redis 官方博客,但含具体基准数据) 工程价值: 高——语义缓存是 2026 新兴方向,70% LLM 成本节省数据值得关注 后续行动: 纳入 RAG 工程最佳实践,关注 LangCache 开源进展
🟠 后端 / 推理系统工程(⭐⭐⭐⭐⭐)
3. DroidSpeak:跨微调变体 KV Cache 共享(NSDI 2026)⭐⭐⭐⭐⭐
来源: USENIX NSDI 2026 — "DroidSpeak: KV Cache Sharing Across Fine-tuned Model Variants" 链接: https://www.aussieai.com/research/prefix-caching (引用来源:Yuhan Liu, Yihua Cheng, Shan Lu, Madan Musuvathi, Esha Choukse,May 2026)
核心观点: - 问题: 企业通常同时部署同一基模型的多个 LoRA/Adapter 微调变体(如代码助手 v1 / v2 / v3),各自独立维护 KV cache,无法跨变体共享 - 方案: DroidSpeak 在不同微调变体之间共享 prefix KV cache,辅以部分层级重计算(partial layerwise recomputation) - 意义: 允许多个 LoRA 变体复用同一 KV cache,前向传播只需为特定层重新计算,大幅减少多变体部署的显存占用 - 发布: USENIX NSDI 2026(5 月 4-6 日,Rent on, WA)
工程价值: 高——对多 LoRA 变体生产部署(企业级 Agent 平台)有直接收益 可信度: 极高(NSDI 2026 正式论文,有源码) 后续行动: 精读论文;追踪 GitHub 开源进展
4. BatchLLM:大批量任务全局前缀共享优化(arXiv:2412.03594v3)⭐⭐⭐⭐
来源: arXiv(原始提交 2024-12,持续更新至 2026-01-16 v3) 链接: https://arxiv.org/html/2412.03594v3 核心观点: - 问题: vLLM 默认 prefix caching 只在单实例内隐式工作;大批量任务(批量 RAG / 批量分类 / 多文档摘要)跨请求共享前缀效率低,vLLM 隐式 prefix caching 仅达到 35.8% 节约率 - 方案: BatchLLM 三层优化: 1. 全局前缀提取:跨批次识别所有请求的公共前缀,避免前缀被过早 evict 2. DP 前缀树算法:将第一层前缀节点合并,简化调度和注意力计算开销 3. 前缀组粒度调度:按前缀共享组调度请求,最大化前缀复用 + 缩短前缀 KV 内存生命周期 - 具体数据: 在 A100 上,vLLM 最新 prefix caching 优化后吞吐 6.57;BatchLLM 达到 8.67(同旧版 vLLM 基线);批量 prefill token 节约率远超 vLLM 隐式方案 - 对比 vLLM APC: vLLM APC 节约率 35.8%,BatchLLM 在大数据量任务上显著更高
工程价值: 高——对批量 API 场景(RAG 管道批量查询 / 多租户 Agent 服务)直接可用 可信度: 高(arXiv 持续更新 v3,2026-01 对比了当时最新 vLLM) 后续行动: 建议加入「批量 LLM 推理优化」主题页;与上午工程过滤中 PASTE 对比
5. PrefixWall:自动前缀缓存的安全边界(arXiv:2603.10726v2)⭐⭐⭐⭐
来源: arXiv:2603.10726v2 链接: https://arxiv.org/html/2603.10726v2 核心观点: - 问题: Automatic Prefix Caching(APC)在多租户 LLM 服务系统中引入时序侧信道攻击:攻击者可通过测量 cache hit/miss 延迟差异(缓存命中 vs 未命中),推断其他用户敏感提示词前缀 - 长前缀 + 更大模型 + 低负载条件下,攻击更容易成功 - 现有防御缺陷: - 隔离方案(完全禁用跨用户缓存):牺牲性能 - 混淆方案(注入随机延迟):不解决根本问题,统一延迟并不能区分前缀内容 - 方案: PrefixWall——轻量级实用系统,在保留 prefix reuse 性能优势的同时选择性隔离可疑前缀,而非隔离整个用户 - 关键设计:基于前缀级别的隔离,而非用户级别
工程价值: 高——生产多租户 LLM 部署(API 服务 / Agent 平台)的安全必读 可信度: 高(arXiv 安全方向,有完整安全分析和实证验证) 后续行动: 建议加入 Agent 安全主题页;作为 OWASP MCP Top 10 补充
6. SAGA:AI Agent 推理的工作流原子调度(arXiv:2605.00528)⭐⭐⭐⭐
来源: arXiv:2605.00528 链接: https://arxiv.org/html/2605.00528 核心观点: - 问题: Agent 工作流产生高相关性的 burst 请求(共享系统提示词 / 工具定义 / 多轮对话历史),100:1 输入/输出 token 比,高前缀重叠;现有 LRU eviction 在对抗设置下退化到 O(n) 竞争比 - 方案: WA-LRU(Workflow-Aware LRU)——利用工作流结构信息指导 eviction 决策 - 理论保证:WA-LRU 达到 O(log n) 竞争比(LRU 为 O(n)) - 调度与 eviction 联合优化 - 配套发现: 生产 traces 揭示 100:1 输入/输出 token 比和 session 内高前缀重叠,是 Agent 工作负载与普通 LLM 请求的本质差异
工程价值: 高——生产 Agent 系统(尤其是高并发多工具 Agent)的 KV cache 管理 可信度: 高(arXiv,含理论分析 + 实证验证) 后续行动: 建议与上午过滤中的 PASTE 和 Continuum 一起纳入 Agent 推理优化主题页
7. Continuum v6:多轮 Agent KV Cache TTL 调度(arXiv:2511.02230v6)⭐⭐⭐⭐
来源: arXiv:2511.02230v6(2026-06 最新版本) 链接: https://arxiv.org/html/2511.02230v6 更新要点(相比早前版本): - Turn-based Eviction 问题形式化:vLLM/SGLang 在工具调用结束后隐式 evict KV cache,导致 Agent 返回时需要完整 prefill 或从 DRAM 重载 - TTL 机制增强:Request Unpinning 策略优化,防止多轮场景下 follow-up 请求已到达但 scheduler 尚未调度时的 premature eviction - 与 PrefixWall 关系: Continuum 优化 KV cache 保留策略,PrefixWall 解决安全隔离;两者可互补
工程价值: 高——多轮 Agent 生产部署的核心挑战 可信度: 高(持续更新 v6,实验充分) 后续行动: 与 PrefixWall 对比研究,两者结合是 Agent 生产部署安全+效率完整方案
8. Fluid-Guided Online Scheduling(arXiv:2504.11320v3)⭐⭐⭐⭐
来源: arXiv:2504.11320v3 链接: https://arxiv.org/html/2504.11320v3 核心观点(与上午下午已覆盖内容关系说明): - 本论文在上午/下午简报中均被引用为背景材料,但本次深度解析其核心机制: - 关键洞察:Eviction 形成恶性循环——被 evict 的请求重新进入 prefill,再次消耗显存,再次触发 eviction,导致级联失败(failed/aborted generations) - 数学框架:提出 α-protection / β-clearing 算法类,在 KV cache 内存约束下最小化 eviction cascades - 流体近似视角:将 LLM 推理调度问题建模为排队论中的流体控制问题,求解稳定运行点
工程价值: 中高——理论框架,但对理解生产级 eviction cascades 根本原因有价值 可信度: 高(arXiv,与 MSRA 合作) 后续行动: 建议加入 LLM 推理理论主题页,作为调度算法参考
9. Modular · The Five Eras of KVCache(⭐⭐⭐⭐⭐)
来源: Modular Blog,2026-06-22(今日最新!) 链接: https://www.modular.com/blog/the-five-eras-of-kvcache 核心观点(Five Eras 框架): 1. Era 1 — 经典 LLM 推理:Prefill + Decode 两阶段,KVCache 作为存储过去注意力状态的内存优化 2. Era 2 — PagedAttention / vLLM:将 KVCache 分页管理,解决显存碎片化,vLLM 崛起 3. Era 3 — Prefix Caching / RadixAttention:跨请求共享公共前缀 KV cache(SGLang / vLLM APC) 4. Era 4 — Disaggregated Prefill/Decode:将 prefill 和 decode 分布到不同 GPU 集群,解决互相阻塞问题 5. Era 5 — 上下文压缩 / 选择性缓存:H200/Mixtale 等新硬件推动,KVCache 与压缩技术结合
工程价值: 高——以时间轴视角梳理 KVCache 演进,帮助理解当前技术栈的定位和历史脉络 可信度: 高(Modular 工程师博客,MAX 团队) 后续行动: 建议加入 KVCache 主题页作为概览图;与 TreeAI-Lab/Awesome-KV-Cache-Management 结合
🟡 Cloud-Native / Kubernetes GPU 编排(⭐⭐⭐⭐)
10. KubeCon EU 2026:NVIDIA DRA 捐赠 CNCF + KAI Scheduler(⭐⭐⭐⭐)
来源: Spheron Blog — "Kubernetes GPU Orchestration in 2026: DRA, KAI Scheduler, and More" 链接: https://www.spheron.network/blog/kubernetes-gpu-orchestration-2026 核心事件: KubeCon Europe 2026 上,NVIDIA 将其 Dynamic Resource Allocation(DRA)驱动捐赠给 CNCF——这是 Kubernetes GPU 调度领域的重大里程碑
关键内容: - DRA(Dynamic Resource Allocation):取代 decade-old NVIDIA device plugin,成为 Kubernetes GPU 调度的新标准 API - KAI Scheduler(Kubernetes AI Scheduler):拓扑感知 GPU 调度,配合 DRA 实现精细化资源分配 - Grove:DRA 的配套项目,提供生产级 GPU 资源视图 - Spot H100 定价(2026-04-15):$1.03/hr vs on-demand $2.50/hr,节省约 59%;Spot B200 $2.12/hr - DRA+Grove 适用场景:裸金属 GPU 节点(无虚拟化层),可看到完整硬件拓扑
可信度: 高(KubeCon 官方事件 + 具体定价数据) 工程价值: 高——Kubernetes AI 基础设施选型的关键信号 后续行动: 建议加入云原生 AI 主题页,作为 2026 中期 Kubernetes GPU 调度事实标准
11. Kubernetes AI 基础设施 2026 生产指南(⭐⭐⭐⭐)
来源: CloudOptimo Blog — "Kubernetes AI Infrastructure in 2026: GPU Scheduling & Production Realities" 链接: https://www.cloudoptimo.com/blog/kubernetes-ai-infrastructure-in-2026-gpu-scheduling-and-production-realities 核心观点: - Kubernetes 已成 AI 基础设施事实标准:2026 年已不再讨论"要不要用 K8s",而是"如何优化" - 多租户隔离基线配置: - Namespace 级别 ResourceQuota + 每团队 GPU 限制 - 两层 PriorityClass(生产推理 vs 研发) - GPU 节点 taints 阻止纯 CPU 工作负载占用加速器 - Kueue borrowing policies:未使用配额可临时借给其他团队,不永久移除原分配 - Karmada / Liqo:多集群工作负载联合(适合地理分布式 GPU 容量),但生产训练采用仍有限 - HPC 与 K8s 融合趋势:拓扑感知放置、gang scheduling、紧网络fabric集成正在进入生产 K8s
可信度: 高(工程博客,具体配置示例) 工程价值: 高——多租户 GPU 集群设计指南 后续行动: 纳入 Kubernetes AI 主题页多租户设计部分
🟢 Substack 高价值工程洞察(⭐⭐⭐⭐)
12. FUNDA AI · Deep LLM 2026(⭐⭐⭐⭐)
来源: Substack — FUNDA AI 链接: https://fundaai.substack.com/p/deepllm-2026-from-the-illusion-of 发布时间: 2026(具体日期见原文) 核心洞察(不复制原文,仅摘要): - 第三个拐点不是模型能力突破,而是系统经济学转变:从「can think」到「can do」,从模型能力到规模化生产力 - 约束从 per-inference FLOPS 转向系统级能力:并发会话管理、长生命周期 KV cache、多轮推理上下文积累、工具调用外部状态管理 - AWS GPU 定价信号:2026-01 AWS 将 p5e.48xlarge(8×H200)从 $34.61/hr 涨至 $39.80/hr(+15%),挑战「云定价长期下行」共识 - 2026 真实趋势:不是泡沫破裂,而是从模型投机阶段转向 Agent 驱动的真实系统级需求;推理时间轴更长、使用强度更高、基础设施需求更结构化 - FUNDA 结论:2025 不是停滞,而是范式转换;2026 是 AI 从「能思考」到「能执行」的关键年份
可信度: 中高(研究型 Substack,有具体定价数据支持论点) 工程意义: 高——帮助理解 2026 AI 基础设施成本趋势和投资逻辑 后续行动: 建议加入 AI 行业趋势主题页
13. Pragmatic Engineer · 什么是推理工程(⭐⭐⭐⭐)
来源: Substack — The Pragmatic Engineer(Gergely Orosz) 链接: https://open.substack.com/pub/pragmaticengineer/p/what-is-inference-engineering 核心洞察: - 推理工程定义:将 LLM 部署到生产环境所需的系统工程技能总和(区别于模型训练/研究) - 闭源 vs 开源模型对推理工程的影响: - 闭源模型:推理工程由模型构建方(AI 工程师)完成,全球可能仅数千人 - 开源模型:更多团队需要自己推理工程(性能调优、部署、监控)——这推动了 2026 年推理工程职位需求的增长 - Cursor 案例:Cursor 在 Kimi 2.5 基础上构建 Composer 2.0,通过推理工程优化使其超越原版 - 核心挑战:延迟、吞吐量、成本、可观测性、eval、guardrails——这些是推理工程师日常面对的真实问题
可信度: 高(Pragmatic Engineer 是知名工程垂直媒体,内容严谨) 工程意义: 高——推理工程师角色定位清晰,适合作为知识库「AI 工程角色图谱」参考 后续行动: 纳入 AI 工程职业/技能主题页
14. The Neural Maze · AI Systems Engineer Journey(⭐⭐⭐⭐)
来源: Substack — The Neural Maze 链接: https://theneuralmaze.substack.com/p/welcome-to-the-ai-systems-engineer 核心洞察(工程框架视角): - 所有 AI 系统都可以映射到同一个 chassis: - Feature Pipeline(数据/文档摄入 → Parser → Chunker → Embed → 写入向量 DB + 关键词索引) - Training Pipeline(Prompt 工程 + 微调 + Prompt registry 版本管理) - Inference Pipeline(Query → 重写 → Hybrid retrieve → Re-rank → Prompt build → Generate → Guardrails → Citation validation) - RAG 的真实挑战:Demo 容易,生产难——分块策略、检索质量、混合搜索、查询重写、重排序、幻觉检测、引用强制、eval 体系、延迟、成本、知识库新鲜度 - Naive RAG 是"hello world",真正的 RAG 系统需要 survives contact with users
可信度: 中高(工程教程型内容,IEEE-CAI 2026 tutorial 背景) 工程意义: 高——RAG 工程化全景图,适合作为学习路径参考 后续行动: 纳入 RAG 主题页「工程化全景」部分
15. llm-d · KV-Cache 精确调度(Red Hat AI Blog,2026-06-11)⭐⭐⭐⭐
来源: Red Hat Developer — "Intelligent inference scheduling with llm-d on Red Hat AI" 链接: https://developers.redhat.com/articles/2026/06/11/intelligent-inference-scheduling-llm-d-red-hat-ai 核心观点: - 问题:传统 round-robin 负载均衡将 LLM 推理视为无状态流量,忽略 KV cache 亲和性,导致 prefix caching 在多副本部署中失效 - llm-d EPP(Exact Prefix Placement):精确前缀放置路由,将每个请求路由到已缓存相关前缀的 pod,使 vLLM prefix caching 真正生效 - Filter → Score → Pick 三阶段: - Filter:剔除无法服务的 pod(不健康/OOM/模型不符) - Score:根据各 pod 的请求前缀缓存命中量评分 - Pick:选最高分 pod;平分时随机打破 - Red Hat 测试结果(8 pods / 16 H100,prefix-cache-aware vs round-robin):TTFT 提升 57×,吞吐量提升 2×
可信度: 高(Red Hat 官方开发者博客,含具体基准数据) 工程意义: 高——分布式 LLM 推理的 prefix cache 路由问题完整方案;适合与上午 SGLang/vLLM 对比一起纳入推理系统工程主题页 后续行动: 建议加入「llm-d vs SGLang RadixAttention vs vLLM APC」对比表
🔵 Benchmark 精选(⭐⭐⭐⭐)
16. vLLM vs TensorRT-LLM vs SGLang H100 基准(2026)⭐⭐⭐⭐
来源: Spheron Blog — "vLLM vs TensorRT-LLM vs SGLang: H100 Benchmarks (2026)" 链接: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks 测试环境: H100 80GB / Llama 3.3 70B / FP8
| 引擎 | 最佳场景 | 吞吐(50 req) | TTFT p50(10 req) | 冷启动 |
|---|---|---|---|---|
| vLLM | 通用 / 宽模型支持 | 1,850 tok/s | 120ms | ~62s |
| TensorRT-LLM | 最大吞吐 / 固定模型 | 2,100 tok/s | 105ms | ~28min |
| SGLang | 共享前缀 / 低延迟 | 1,920 tok/s | 112ms | ~58s |
选型建议: - 从 vLLM 开始:覆盖最广、文档最完善、无需编译 - 换 TensorRT-LLM:模型固定不变 + 需要压榨每 token/秒 - 换 SGLang:共享前缀工作负载(聊天机器人 / RAG / 多轮对话),测 TTFT 发现有实质改善
可信度: 中高(Spheron 独立基准,具体硬件配置) 后续行动: 纳入 SGLang vs vLLM 选型主题页
📂 分类标签
#VectorDB #Qdrant #pgvector #Pinecone #Milvus #Redis #HybridSearch
#KVCache #PrefixCaching #PrefixWall #DroidSpeak #BatchLLM #SAGA
#Continuum #FluidScheduling #DRA #KubeCon2026 #KAI #Kubernetes
#LLMInference #vLLM #SGLang #TensorRT-LLM #llm-d #NSDI2026
#Substack #FUNDA-AI #PragmaticEngineer #InferenceEngineering
#AgentSecurity #SideChannel #MultiAgent #NeurIPS2025 #MLSys2026
📋 建议写入路径
| 条目 | 路径 | 操作 |
|---|---|---|
| 向量数据库 2026 基准全览 | /shared/research-kb/inbox/jay/2026-06-22-vecdb-benchmark-2026.md |
新建,精读 |
| DroidSpeak NSDI 2026 | /shared/research-kb/inbox/jay/2026-06-22-droidspeak-nsdi2026.md |
新建,审稿 |
| BatchLLM 全局前缀共享 | /shared/research-kb/inbox/jay/2026-06-22-batchllm-prefix-sharing.md |
新建,精读 |
| PrefixWall 安全分析 | /shared/research-kb/inbox/jay/2026-06-22-prefixwall-security.md |
新建,审稿 |
| SAGA workflow-atomic scheduling | /shared/research-kb/inbox/jay/2026-06-22-saga-workflow-scheduling.md |
新建 |
| Modular Five Eras of KVCache | /shared/research-kb/inbox/jay/2026-06-22-five-eras-kvcache.md |
新建,加入 KVCache 主题页 |
| KubeCon EU 2026 DRA + KAI | /shared/research-kb/inbox/jay/2026-06-22-kubecon-eu-dra-kai.md |
新建,加入 Kubernetes AI 主题页 |
| llm-d Red Hat prefix scheduling | /shared/research-kb/inbox/jay/2026-06-22-llm-d-prefix-scheduling.md |
新建,加入推理系统工程 |
| FUNDA AI Deep LLM 2026 | /shared/research-kb/inbox/jay/2026-06-22-funda-llm-2026-substack.md |
新建,加入行业趋势 |
| Pragmatic Engineer Inference Engineering | /shared/research-kb/inbox/jay/2026-06-22-pragmatic-inference-engineering.md |
新建,加入角色图谱 |
| vLLM/TensorRT/SGLang H100 基准 | /shared/research-kb/inbox/jay/2026-06-22-h100-benchmark-2026.md |
新建,加入选型参考 |
🔍 本次 Substack 来源记录
| 作者/机构 | 专栏 | 可信度 | 主题 |
|---|---|---|---|
| FUNDA AI | fundaai.substack.com | ⭐⭐⭐⭐ 中高 | Deep LLM 2026 系统经济学 |
| Gergely Orosz | pragmaticengineer.substack.com | ⭐⭐⭐⭐⭐ 高 | 推理工程定义与职位需求 |
| The Neural Maze | theneuralmaze.substack.com | ⭐⭐⭐⭐ 中高 | AI Systems Engineer 全景图 |
| Philip Kiely | inference engineering blog (substack) | ⭐⭐⭐⭐ 中 | 推理工程实战书籍 |
| Shirin Khosravi Jam | jamwithai.substack.com | ⭐⭐⭐ 中 | LLM 推理延迟 10 大技巧 |
✅ 后续行动
- 精读优先级:DroidSpeak(NSDI 2026)> PrefixWall > BatchLLM > SAGA
- 审稿优先级:Modular Five Eras of KVCache(今日最新)> llm-d Red Hat blog
- 主题页更新建议:
-
topic-kv-cache-management.md— 新增 Five Eras 概览图 + PrefixWall 安全边界 -topic-vecdb-2026.md— 新建向量数据库选型决策树(含 2026 基准数据) -topic-cloudnative-ai.md— 新增 KubeCon EU 2026 DRA/KAI 最新动态 -topic-agent-security.md— 新增 PrefixWall 作为 APC 侧信道防御方案 -topic-agent-production-engineering.md— 新增 SAGA/Continuum 多轮 Agent 调度
草稿整理:Jay · 2026-06-22 傍晚 · 共收录 16 个条目 · arXiv 占 7 个 · Substack 占 4 个 · 博客/基准占 5 个 · 新增向量数据库 2026 基准专题 · DroidSpeak NSDI 2026 首发 · PrefixWall 安全必读 · llm-d Red Hat 生产数据