知识库草稿 · Jay · 2026-06-26 下午 3:05
主题
推理引擎对比框架 · Agent Stack 六层架构 · VeriCache KV 压缩 · GitHub Trending · Cloud Native AI June 2026 · Vector DB May 回顾
一、推理引擎:vLLM vs SGLang 2026 选型决策框架
来源
- Spheron: vLLM vs SGLang 2026: RadixAttention vs PagedAttention Benchmarks
https://www.spheron.network/blog/vllm-vs-sglang-2026 - Techsy: vLLM vs SGLang 2026: H100 Benchmarks Inside
https://techsy.io/en/blog/vllm-vs-sglang - YottaLabs: Best LLM Inference Engines 2026
https://www.yottalabs.ai/post/best-llm-inference-engines-in-2026-vllm-tensorrt-llm-tgi-and-sglang-compared
核心决策树(60% 前缀重叠率 = 分水岭)
判断基准 = prefix overlap ratio(请求中共享前缀比例)
| 场景 | 推荐引擎 | 原因 |
|---|---|---|
| 前缀重叠率 > 60%(RAG 文档复用、工具定义块、系统提示) | SGLang | RadixAttention 复用共享前缀 KV cache,TTFT 降低 20~40% |
| 唯一 prompt 高吞吐 | 平局 | H100 上两者差距 < 5% |
| 结构化 JSON 输出(重复 schema) | SGLang(轻微) | Grammar-cache reuse 重复 schema 开销趋近 0 |
| 推测解码(Speculative Decoding) | vLLM | Eagle3/EAGLE2 + MRV2 集成完善;SGLang 支持仍为实验性 |
| LoRA 多适配器服务 | 均可 | 两者均支持单 base model 多 LoRA |
| 模型支持广度 | vLLM | 对新模型、特殊架构支持更广 |
vLLM 关键数字:A100 80GB 上 Llama 70B 约 3,500 tokens/sec
SGLang 关键数字:前缀-heavy 场景 TTFT 降低 20~40%
工程借鉴
- 选引擎先算 prefix overlap ratio,这是两个引擎本质差异
- Prefix 场景(Agentic RAG、多租户工具定义)→ SGLang
- 推测解码为主(低延迟生成)→ vLLM
- 相关已有条目:
2026-06-26-1455-engineering-filter-vllm-llm-engine-bugs-grab-production.md(vLLM 生产部署完整命令集)
建议分类
LLM-Inference vLLM SGLang Benchmark Production
二、The AI Engineer Substack:AI Agent Stack 2026 六层架构
来源
- The AI Engineer (Substack):The AI Agents Stack: LLM to Production (2026 Edition)
https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition - 作者:Paolo Perrone,2026-03-06
- 可信度:⭐⭐⭐⭐⭐(AI Engineer 是高质量工程向 newsletter,深度追踪 AI 工程实践)
核心论点
背景:2024年11月 Letta 的 AI Agents Stack 图成为行业事实标准,但 14 个月后 MCP 不存在、Memory 还是 vector DB 子集、Eval 不在地图上。2026版重绘。
六层架构(2026版):
Layer 1: LLM(基础模型)
Layer 2: Tooling / SDK(LangGraph / OpenAI SDK / Anthropic Agent SDK 等)
Layer 3: Memory(context window 管理、session persistence、vector store)
Layer 4: Protocols(MCP / A2A / 工具调用协议)
Layer 5: Eval(acceptance-rate model、continuous eval)
Layer 6: Guardrails(sandbox、权限控制、安全边界)
关键更新(相比 2024): - MCP 从"不存在"变为独立协议层(2025年12月捐给 Agentic AI Foundation) - Eval 从"没有"变为持续生产反馈循环 - Memory 层从"vector DB"扩展为 session + context + tool memory 复合体系 - Guardrails 作为独立层(之前散落在各层)
案例:Cursor 的六层全貌 - Coding agent(Cursor/Claude Code/Codex/Windsurf)是六层完整运行的成熟案例 - Layer 5(Eval):Cursor 每 90 分钟基于用户接受/拒绝率重训练 acceptance-rate model - Layer 6(Guardrails):sandboxed execution 限制 agent 可触及范围
工程借鉴
- 这六层是诊断 agent 项目复杂度的框架:问题在哪一层,比选什么工具更重要
- MCP 在 2026 是标准协议层,不再是可选实验
- 相关已有条目:
2026-06-26-1135-nsa-mcp-security-llm-inference-systems-arxiv-jun2026.md(MCP 安全)、2026-06-26-0935-ai-agents-stack-hf-blog-kvcache-github-substack.md(HF Moon Bot)
建议分类
AI-Agent Agent-Stack MCP Eval Guardrails Substack
三、arXiv VeriCache:有损 KV Cache 变无损(arXiv 2605.17613)
来源
- arXiv: https://arxiv.org/html/2605.17613v1
- 可信度:⭐⭐⭐⭐(arXiv,Systems 方向,带 KV Cache Verification + Speculative Decoding)
核心问题
KV cache 压缩(有损或无损)后,压缩数据质量无法保证用于精确生成。直接丢弃 KV entries 或量化会引入误差。
核心贡献
VeriCache = 有损 KV Cache + 在线验证 + 推测解码
- KV Cache Verification:压缩后的 KV cache 在使用时做验证,检测是否产生误差
- 长上下文解码:当 KV cache 某部分被验证为不可靠时,通过推测解码恢复精度
- 方法跨压缩策略(token dropping、quantization)通用
与已有条目关系
- 相关已有条目:
2026-06-26-1135-nsa-mcp-security-llm-inference-systems-arxiv-jun2026.md(SMEPilot ARM 矩阵扩展优化 LLM 推理,FlexServe 移动端安全推理) - 相关已有条目:
2026-06-26-1050-engineering-filter-inference-stack-agentic-harness.md(KV cache eviction 和 PrefixCaching)
建议分类
LLM-Inference KV-Cache Quantization arXiv Compression
四、GitHub Trending June 25:AI Agent 主导 Dev Tools
来源
- StartupCorners: GitHub Trending June 25 2026: AI Agents Dominate Dev Tools
https://startupcorners.com/digest/devtools-digest-2026-06-25
关键新条目(24h 内大热)
| 项目 | Stars 增量 | 类型 | 亮点 |
|---|---|---|---|
| calesthio/OpenMontage | +3719 | Agentic Video Production | 首个开源 agentic 视频制作系统,12 条 pipeline,52 工具,500+ agent skills |
| stablyai/orca | +331 | Agent Dev Environment | 桌面/移动端并行 coding agent fleet 开发环境 |
| openai/codex | +349 | Coding Agent | OpenAI 轻量 terminal coding agent |
| wshobson/agents | +50 | Multi-harness Plugin Marketplace | Claude Code / Codex / Cursor / Windsurf 多 harness agent 插件市场 |
| block/goose | +166 | Coding Agent | Block 开源的 coding agent |
OpenMontage 亮点:12 条 pipeline、52 tools、500+ agent skills,首个开源端到端 agentic 视频制作系统,工程复杂度高但方向新颖。
ossinsight.io 实时排行(2026-06-26 附近): - OpenHands: 60.6K stars(+118/wk) - MetaGPT: 59.7K stars(+19/wk) - opencode: 55.6K stars(+355/wk) - microsoft/AutoGen: 48.3K stars(+30/wk) - openai/codex: 44.7K stars(+221/wk)
建议分类
GitHub-Trending Coding-Agent Agentic-Video OpenMontage OpenHands
五、Cloud Native AI June 2026:CNCF Sandbox 三连发
来源
- Forbes / Janakiram MSV: AI Inference Takes Center Stage At KubeCon Europe 2026
https://www.forbes.com/sites/janakirammsv/2026/03/29/ai-inference-takes-center-stage-at-kubecon-europe-2026 - LinkedIn / The Stack Observer: Cloud Native in June 2026
https://www.linkedin.com/posts/the-stack-observer_cloud-native-in-june-2026-ai-inference-activity-7467561977628921857-RqQp
关键事件(2026 上半年)
| 项目 | 贡献方 | CNCF 状态 | 用途 |
|---|---|---|---|
| llm-d | IBM Research + Red Hat + Google Cloud | Sandbox | 分布式 LLM 推理框架 |
| KAI Scheduler | NVIDIA | Sandbox | GPU 集群 AI 负载编排 |
| Grove | NVIDIA | 新发布 | Kubernetes API for AI 负载编排 |
llm-d 意义:CNCF 接收 IBM/Red Hat/Google 三方联合贡献,标志推理框架走向标准化 + 开源治理
Grove:NVIDIA 新开源 Kubernetes API,用于 GPU 集群上 AI 负载编排,与 KAI Scheduler 协同
行业背景:82% 的组织已在 Kubernetes 上运行 AI 工作负载,但只有 7% 每天在生产环境部署 AI——说明 Kubernetes AI 基建仍有巨大标准化空间
Cloud Native AI & Inference Day(KubeCon NA 2026 同场) 议题方向: - LLM、RAG、Agentic Systems - Ethical Considerations in AI
工程借鉴
- llm-d 值得关注:如需跨节点分布式推理框架,llm-d CNCF 生态是 2026 新标准候选
- Grove + KAI Scheduler = NVIDIA 在 K8s GPU 编排的统一方案
- 与
2026-06-26-1455-engineering-filter-vllm-llm-engine-bugs-grab-production.md中 K8s 部署命令互补
建议分类
CloudNative Kubernetes CNCF LLM-Inference GPU KubeCon
六、Vector DB May 2026 回顾:CVE + 大版本 + 新量化引擎
来源
- RankSquire: Vector Database News May 2026
https://ranksquire.com/2026/05/27/vector-database-news-may-2026
关键事件汇总
| 数据库 | 版本 | 重大更新 | 紧急程度 |
|---|---|---|---|
| pgvector | 0.8.2 | CVE-2026-3172 安全补丁(跨 relation 数据泄露风险) | 🔴 紧急:7 天内必须升级 |
| Milvus | 3.0.0-beta | zero-copy 数据湖查询 | 🟡 关注正式版 |
| Milvus | 2.6.16 GA | 稳定性补丁 | 🟢 |
| Qdrant | 1.18.0 + 1.18.1 | TurboQuant 量化、dynamic named vectors、io_uring 优化 | 🟡 高价值 |
| Pinecone | Builder tier $20/月 GA | 新定价层 | 🟢 |
| Redis | 8.6.3 | 多 CVE 安全补丁 | 🔴 紧急 |
| Chroma | 1.5.9 | 分片改进 | 🟢 |
| Weaviate | v1.37.4 / v1.35.19 | 稳定性补丁 | 🟢 |
pgvector CVE-2026-3172: - 风险:跨 PostgreSQL relation 的数据暴露 - 要求:运行 pgvector 生产环境的团队 7 天内必须升级到 0.8.2
Qdrant v1.18 TurboQuant:新型量化引擎,进一步降低向量存储开销 + 提升检索 QPS
Vector DB 2026 对比图(CallSphere): - pgvector:~5K-15K QPS(单 Postgres 实例,HNSW,1024-dim) - Qdrant:hybrid search + late interaction 最佳 - Milvus:超大规模(亿级向量)首选 - LanceDB:嵌入式 / 本地首选
建议分类
Vector-DB pgvector Qdrant Milvus CVE Security
七、CSDN 高价值条目(53AI)
来源
- 53AI.com: 不要只盯着vLLM了,在复杂提示词场景下SGLang更优秀
https://www.53ai.com/news/LargeLanguageModel/2025061190281.html
核心对比(SGLang 聚焦场景)
| 场景 | SGLang 优势 |
|---|---|
| Agent / ReAct 推理链 | ✅ 更优 |
| 复杂提示词结构化生成 | ✅ 更优 |
| 吞吐(通用场景) | 持平或略优(部分 benchmark 5x 于 vLLM) |
| 易用性 / 配置复杂度 | ❌ 配置比 vLLM 复杂 |
与本轮条目关系
- 与条目一(vLLM vs SGLang 选型框架)互为中英文互补来源
- 53AI 补充了"Agent / ReAct 推理链"的判断
建议分类
CSDN SGLang vLLM RAG Agent
分类标签汇总
LLM-Inference vLLM SGLang Agent-Stack MCP Eval Guardrails KV-Cache Quantization GitHub-Trending CloudNative Kubernetes CNCF Vector-DB pgvector Qdrant Milvus CVE arXiv Substack
建议写入路径
/shared/research-kb/inbox/jay/2026-06-26-1505-evening-briefing-inference-agents-vecdb-kubecon-2026.md
是否需要精读/审稿/主题页更新
- 精读:VeriCache(arXiv 2605.17613)—— KV cache 压缩+验证+推测解码结合的新范式
- 审稿:六层 Agent Stack(The AI Engineer Substack)—— 可对比 OpenClaw 实例现有 agent 工程实践
- 主题页更新:Vector DB 页面建议增加 CVE-2026-3172 pgvector 紧急升级提示;CNCF llm-d/KAI Scheduler/Grove 可加入 K8s AI 页面