知识库草稿 · Jay · 2026-06-26 下午 3:05

主题

推理引擎对比框架 · Agent Stack 六层架构 · VeriCache KV 压缩 · GitHub Trending · Cloud Native AI June 2026 · Vector DB May 回顾

一、推理引擎：vLLM vs SGLang 2026 选型决策框架

来源

Spheron: vLLM vs SGLang 2026: RadixAttention vs PagedAttention Benchmarks
https://www.spheron.network/blog/vllm-vs-sglang-2026
Techsy: vLLM vs SGLang 2026: H100 Benchmarks Inside
https://techsy.io/en/blog/vllm-vs-sglang
YottaLabs: Best LLM Inference Engines 2026
https://www.yottalabs.ai/post/best-llm-inference-engines-in-2026-vllm-tensorrt-llm-tgi-and-sglang-compared

核心决策树（60% 前缀重叠率 = 分水岭）

判断基准 = prefix overlap ratio（请求中共享前缀比例）

场景	推荐引擎	原因
前缀重叠率 > 60%（RAG 文档复用、工具定义块、系统提示）	SGLang	RadixAttention 复用共享前缀 KV cache，TTFT 降低 20~40%
唯一 prompt 高吞吐	平局	H100 上两者差距 < 5%
结构化 JSON 输出（重复 schema）	SGLang（轻微）	Grammar-cache reuse 重复 schema 开销趋近 0
推测解码（Speculative Decoding）	vLLM	Eagle3/EAGLE2 + MRV2 集成完善；SGLang 支持仍为实验性
LoRA 多适配器服务	均可	两者均支持单 base model 多 LoRA
模型支持广度	vLLM	对新模型、特殊架构支持更广

vLLM 关键数字：A100 80GB 上 Llama 70B 约 3,500 tokens/sec
SGLang 关键数字：前缀-heavy 场景 TTFT 降低 20~40%

工程借鉴

选引擎先算 prefix overlap ratio，这是两个引擎本质差异
Prefix 场景（Agentic RAG、多租户工具定义）→ SGLang
推测解码为主（低延迟生成）→ vLLM
相关已有条目：2026-06-26-1455-engineering-filter-vllm-llm-engine-bugs-grab-production.md（vLLM 生产部署完整命令集）

建议分类

LLM-Inference vLLM SGLang Benchmark Production

二、The AI Engineer Substack：AI Agent Stack 2026 六层架构

来源

The AI Engineer (Substack)：The AI Agents Stack: LLM to Production (2026 Edition)
https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
作者：Paolo Perrone，2026-03-06
可信度：⭐⭐⭐⭐⭐（AI Engineer 是高质量工程向 newsletter，深度追踪 AI 工程实践）

核心论点

背景：2024年11月 Letta 的 AI Agents Stack 图成为行业事实标准，但 14 个月后 MCP 不存在、Memory 还是 vector DB 子集、Eval 不在地图上。2026版重绘。

六层架构（2026版）：

Layer 1: LLM（基础模型）
Layer 2: Tooling / SDK（LangGraph / OpenAI SDK / Anthropic Agent SDK 等）
Layer 3: Memory（context window 管理、session persistence、vector store）
Layer 4: Protocols（MCP / A2A / 工具调用协议）
Layer 5: Eval（acceptance-rate model、continuous eval）
Layer 6: Guardrails（sandbox、权限控制、安全边界）

关键更新（相比 2024）： - MCP 从"不存在"变为独立协议层（2025年12月捐给 Agentic AI Foundation） - Eval 从"没有"变为持续生产反馈循环 - Memory 层从"vector DB"扩展为 session + context + tool memory 复合体系 - Guardrails 作为独立层（之前散落在各层）

案例：Cursor 的六层全貌 - Coding agent（Cursor/Claude Code/Codex/Windsurf）是六层完整运行的成熟案例 - Layer 5（Eval）：Cursor 每 90 分钟基于用户接受/拒绝率重训练 acceptance-rate model - Layer 6（Guardrails）：sandboxed execution 限制 agent 可触及范围

工程借鉴

这六层是诊断 agent 项目复杂度的框架：问题在哪一层，比选什么工具更重要
MCP 在 2026 是标准协议层，不再是可选实验
相关已有条目：2026-06-26-1135-nsa-mcp-security-llm-inference-systems-arxiv-jun2026.md（MCP 安全）、2026-06-26-0935-ai-agents-stack-hf-blog-kvcache-github-substack.md（HF Moon Bot）

建议分类

AI-Agent Agent-Stack MCP Eval Guardrails Substack

三、arXiv VeriCache：有损 KV Cache 变无损（arXiv 2605.17613）

来源

arXiv: https://arxiv.org/html/2605.17613v1
可信度：⭐⭐⭐⭐（arXiv，Systems 方向，带 KV Cache Verification + Speculative Decoding）

核心问题

KV cache 压缩（有损或无损）后，压缩数据质量无法保证用于精确生成。直接丢弃 KV entries 或量化会引入误差。

核心贡献

VeriCache = 有损 KV Cache + 在线验证 + 推测解码

KV Cache Verification：压缩后的 KV cache 在使用时做验证，检测是否产生误差
长上下文解码：当 KV cache 某部分被验证为不可靠时，通过推测解码恢复精度
方法跨压缩策略（token dropping、quantization）通用

与已有条目关系

相关已有条目：2026-06-26-1135-nsa-mcp-security-llm-inference-systems-arxiv-jun2026.md（SMEPilot ARM 矩阵扩展优化 LLM 推理，FlexServe 移动端安全推理）
相关已有条目：2026-06-26-1050-engineering-filter-inference-stack-agentic-harness.md（KV cache eviction 和 PrefixCaching）

建议分类

LLM-Inference KV-Cache Quantization arXiv Compression

来源

StartupCorners: GitHub Trending June 25 2026: AI Agents Dominate Dev Tools
https://startupcorners.com/digest/devtools-digest-2026-06-25

关键新条目（24h 内大热）

项目	Stars 增量	类型	亮点
calesthio/OpenMontage	+3719	Agentic Video Production	首个开源 agentic 视频制作系统，12 条 pipeline，52 工具，500+ agent skills
stablyai/orca	+331	Agent Dev Environment	桌面/移动端并行 coding agent fleet 开发环境
openai/codex	+349	Coding Agent	OpenAI 轻量 terminal coding agent
wshobson/agents	+50	Multi-harness Plugin Marketplace	Claude Code / Codex / Cursor / Windsurf 多 harness agent 插件市场
block/goose	+166	Coding Agent	Block 开源的 coding agent

OpenMontage 亮点：12 条 pipeline、52 tools、500+ agent skills，首个开源端到端 agentic 视频制作系统，工程复杂度高但方向新颖。

ossinsight.io 实时排行（2026-06-26 附近）： - OpenHands: 60.6K stars（+118/wk） - MetaGPT: 59.7K stars（+19/wk） - opencode: 55.6K stars（+355/wk） - microsoft/AutoGen: 48.3K stars（+30/wk） - openai/codex: 44.7K stars（+221/wk）

建议分类

GitHub-Trending Coding-Agent Agentic-Video OpenMontage OpenHands

五、Cloud Native AI June 2026：CNCF Sandbox 三连发

来源

Forbes / Janakiram MSV: AI Inference Takes Center Stage At KubeCon Europe 2026
https://www.forbes.com/sites/janakirammsv/2026/03/29/ai-inference-takes-center-stage-at-kubecon-europe-2026
LinkedIn / The Stack Observer: Cloud Native in June 2026
https://www.linkedin.com/posts/the-stack-observer_cloud-native-in-june-2026-ai-inference-activity-7467561977628921857-RqQp

关键事件（2026 上半年）

项目	贡献方	CNCF 状态	用途
llm-d	IBM Research + Red Hat + Google Cloud	Sandbox	分布式 LLM 推理框架
KAI Scheduler	NVIDIA	Sandbox	GPU 集群 AI 负载编排
Grove	NVIDIA	新发布	Kubernetes API for AI 负载编排

llm-d 意义：CNCF 接收 IBM/Red Hat/Google 三方联合贡献，标志推理框架走向标准化 + 开源治理

Grove：NVIDIA 新开源 Kubernetes API，用于 GPU 集群上 AI 负载编排，与 KAI Scheduler 协同

行业背景：82% 的组织已在 Kubernetes 上运行 AI 工作负载，但只有 7% 每天在生产环境部署 AI——说明 Kubernetes AI 基建仍有巨大标准化空间

Cloud Native AI & Inference Day（KubeCon NA 2026 同场） 议题方向： - LLM、RAG、Agentic Systems - Ethical Considerations in AI

工程借鉴

llm-d 值得关注：如需跨节点分布式推理框架，llm-d CNCF 生态是 2026 新标准候选
Grove + KAI Scheduler = NVIDIA 在 K8s GPU 编排的统一方案
与 2026-06-26-1455-engineering-filter-vllm-llm-engine-bugs-grab-production.md 中 K8s 部署命令互补

建议分类

CloudNative Kubernetes CNCF LLM-Inference GPU KubeCon

六、Vector DB May 2026 回顾：CVE + 大版本 + 新量化引擎

来源

RankSquire: Vector Database News May 2026
https://ranksquire.com/2026/05/27/vector-database-news-may-2026

关键事件汇总

数据库	版本	重大更新	紧急程度
pgvector	0.8.2	CVE-2026-3172 安全补丁（跨 relation 数据泄露风险）	🔴 紧急：7 天内必须升级
Milvus	3.0.0-beta	zero-copy 数据湖查询	🟡 关注正式版
Milvus	2.6.16 GA	稳定性补丁	🟢
Qdrant	1.18.0 + 1.18.1	TurboQuant 量化、dynamic named vectors、io_uring 优化	🟡 高价值
Pinecone	Builder tier $20/月 GA	新定价层	🟢
Redis	8.6.3	多 CVE 安全补丁	🔴 紧急
Chroma	1.5.9	分片改进	🟢
Weaviate	v1.37.4 / v1.35.19	稳定性补丁	🟢

pgvector CVE-2026-3172： - 风险：跨 PostgreSQL relation 的数据暴露 - 要求：运行 pgvector 生产环境的团队 7 天内必须升级到 0.8.2

Qdrant v1.18 TurboQuant：新型量化引擎，进一步降低向量存储开销 + 提升检索 QPS

Vector DB 2026 对比图（CallSphere）： - pgvector：~5K-15K QPS（单 Postgres 实例，HNSW，1024-dim） - Qdrant：hybrid search + late interaction 最佳 - Milvus：超大规模（亿级向量）首选 - LanceDB：嵌入式 / 本地首选

建议分类

Vector-DB pgvector Qdrant Milvus CVE Security

七、CSDN 高价值条目（53AI）

来源

53AI.com: 不要只盯着vLLM了，在复杂提示词场景下SGLang更优秀
https://www.53ai.com/news/LargeLanguageModel/2025061190281.html

核心对比（SGLang 聚焦场景）

场景	SGLang 优势
Agent / ReAct 推理链	✅ 更优
复杂提示词结构化生成	✅ 更优
吞吐（通用场景）	持平或略优（部分 benchmark 5x 于 vLLM）
易用性 / 配置复杂度	❌ 配置比 vLLM 复杂

与本轮条目关系

与条目一（vLLM vs SGLang 选型框架）互为中英文互补来源
53AI 补充了"Agent / ReAct 推理链"的判断

建议分类

CSDN SGLang vLLM RAG Agent

分类标签汇总

LLM-Inference vLLM SGLang Agent-Stack MCP Eval Guardrails KV-Cache Quantization GitHub-Trending CloudNative Kubernetes CNCF Vector-DB pgvector Qdrant Milvus CVE arXiv Substack

建议写入路径

/shared/research-kb/inbox/jay/2026-06-26-1505-evening-briefing-inference-agents-vecdb-kubecon-2026.md

是否需要精读/审稿/主题页更新

精读：VeriCache（arXiv 2605.17613）—— KV cache 压缩+验证+推测解码结合的新范式
审稿：六层 Agent Stack（The AI Engineer Substack）—— 可对比 OpenClaw 实例现有 agent 工程实践
主题页更新：Vector DB 页面建议增加 CVE-2026-3172 pgvector 紧急升级提示；CNCF llm-d/KAI Scheduler/Grove 可加入 K8s AI 页面

知识库草稿 · Jay · 2026-06-26 下午 3:05

主题

一、推理引擎：vLLM vs SGLang 2026 选型决策框架

来源

核心决策树（60% 前缀重叠率 = 分水岭）

工程借鉴

建议分类

二、The AI Engineer Substack：AI Agent Stack 2026 六层架构

来源

核心论点

工程借鉴

建议分类

三、arXiv VeriCache：有损 KV Cache 变无损（arXiv 2605.17613）

来源

核心问题

核心贡献

与已有条目关系

建议分类

四、GitHub Trending June 25：AI Agent 主导 Dev Tools

来源

关键新条目（24h 内大热）

建议分类

五、Cloud Native AI June 2026：CNCF Sandbox 三连发

来源

关键事件（2026 上半年）

工程借鉴

建议分类

六、Vector DB May 2026 回顾：CVE + 大版本 + 新量化引擎

来源

关键事件汇总

建议分类

七、CSDN 高价值条目（53AI）

来源

核心对比（SGLang 聚焦场景）

与本轮条目关系

建议分类

分类标签汇总

建议写入路径

是否需要精读/审稿/主题页更新