← 笔记
Jay 2026-06-26 15:05

知识库草稿 · Jay · 2026-06-26 下午 3:05

主题

推理引擎对比框架 · Agent Stack 六层架构 · VeriCache KV 压缩 · GitHub Trending · Cloud Native AI June 2026 · Vector DB May 回顾


一、推理引擎:vLLM vs SGLang 2026 选型决策框架

来源

核心决策树(60% 前缀重叠率 = 分水岭)

判断基准 = prefix overlap ratio(请求中共享前缀比例)

场景 推荐引擎 原因
前缀重叠率 > 60%(RAG 文档复用、工具定义块、系统提示) SGLang RadixAttention 复用共享前缀 KV cache,TTFT 降低 20~40%
唯一 prompt 高吞吐 平局 H100 上两者差距 < 5%
结构化 JSON 输出(重复 schema) SGLang(轻微) Grammar-cache reuse 重复 schema 开销趋近 0
推测解码(Speculative Decoding) vLLM Eagle3/EAGLE2 + MRV2 集成完善;SGLang 支持仍为实验性
LoRA 多适配器服务 均可 两者均支持单 base model 多 LoRA
模型支持广度 vLLM 对新模型、特殊架构支持更广

vLLM 关键数字:A100 80GB 上 Llama 70B 约 3,500 tokens/sec
SGLang 关键数字:前缀-heavy 场景 TTFT 降低 20~40%

工程借鉴

  • 选引擎先算 prefix overlap ratio,这是两个引擎本质差异
  • Prefix 场景(Agentic RAG、多租户工具定义)→ SGLang
  • 推测解码为主(低延迟生成)→ vLLM
  • 相关已有条目:2026-06-26-1455-engineering-filter-vllm-llm-engine-bugs-grab-production.md(vLLM 生产部署完整命令集)

建议分类

LLM-Inference vLLM SGLang Benchmark Production


二、The AI Engineer Substack:AI Agent Stack 2026 六层架构

来源

核心论点

背景:2024年11月 Letta 的 AI Agents Stack 图成为行业事实标准,但 14 个月后 MCP 不存在、Memory 还是 vector DB 子集、Eval 不在地图上。2026版重绘。

六层架构(2026版)

Layer 1: LLM(基础模型)
Layer 2: Tooling / SDK(LangGraph / OpenAI SDK / Anthropic Agent SDK 等)
Layer 3: Memory(context window 管理、session persistence、vector store)
Layer 4: Protocols(MCP / A2A / 工具调用协议)
Layer 5: Eval(acceptance-rate model、continuous eval)
Layer 6: Guardrails(sandbox、权限控制、安全边界)

关键更新(相比 2024): - MCP 从"不存在"变为独立协议层(2025年12月捐给 Agentic AI Foundation) - Eval 从"没有"变为持续生产反馈循环 - Memory 层从"vector DB"扩展为 session + context + tool memory 复合体系 - Guardrails 作为独立层(之前散落在各层)

案例:Cursor 的六层全貌 - Coding agent(Cursor/Claude Code/Codex/Windsurf)是六层完整运行的成熟案例 - Layer 5(Eval):Cursor 每 90 分钟基于用户接受/拒绝率重训练 acceptance-rate model - Layer 6(Guardrails):sandboxed execution 限制 agent 可触及范围

工程借鉴

  • 这六层是诊断 agent 项目复杂度的框架:问题在哪一层,比选什么工具更重要
  • MCP 在 2026 是标准协议层,不再是可选实验
  • 相关已有条目:2026-06-26-1135-nsa-mcp-security-llm-inference-systems-arxiv-jun2026.md(MCP 安全)、2026-06-26-0935-ai-agents-stack-hf-blog-kvcache-github-substack.md(HF Moon Bot)

建议分类

AI-Agent Agent-Stack MCP Eval Guardrails Substack


三、arXiv VeriCache:有损 KV Cache 变无损(arXiv 2605.17613)

来源

核心问题

KV cache 压缩(有损或无损)后,压缩数据质量无法保证用于精确生成。直接丢弃 KV entries 或量化会引入误差。

核心贡献

VeriCache = 有损 KV Cache + 在线验证 + 推测解码

  • KV Cache Verification:压缩后的 KV cache 在使用时做验证,检测是否产生误差
  • 长上下文解码:当 KV cache 某部分被验证为不可靠时,通过推测解码恢复精度
  • 方法跨压缩策略(token dropping、quantization)通用

与已有条目关系

  • 相关已有条目:2026-06-26-1135-nsa-mcp-security-llm-inference-systems-arxiv-jun2026.md(SMEPilot ARM 矩阵扩展优化 LLM 推理,FlexServe 移动端安全推理)
  • 相关已有条目:2026-06-26-1050-engineering-filter-inference-stack-agentic-harness.md(KV cache eviction 和 PrefixCaching)

建议分类

LLM-Inference KV-Cache Quantization arXiv Compression


来源

关键新条目(24h 内大热)

项目 Stars 增量 类型 亮点
calesthio/OpenMontage +3719 Agentic Video Production 首个开源 agentic 视频制作系统,12 条 pipeline,52 工具,500+ agent skills
stablyai/orca +331 Agent Dev Environment 桌面/移动端并行 coding agent fleet 开发环境
openai/codex +349 Coding Agent OpenAI 轻量 terminal coding agent
wshobson/agents +50 Multi-harness Plugin Marketplace Claude Code / Codex / Cursor / Windsurf 多 harness agent 插件市场
block/goose +166 Coding Agent Block 开源的 coding agent

OpenMontage 亮点:12 条 pipeline、52 tools、500+ agent skills,首个开源端到端 agentic 视频制作系统,工程复杂度高但方向新颖。

ossinsight.io 实时排行(2026-06-26 附近): - OpenHands: 60.6K stars(+118/wk) - MetaGPT: 59.7K stars(+19/wk) - opencode: 55.6K stars(+355/wk) - microsoft/AutoGen: 48.3K stars(+30/wk) - openai/codex: 44.7K stars(+221/wk)

建议分类

GitHub-Trending Coding-Agent Agentic-Video OpenMontage OpenHands


五、Cloud Native AI June 2026:CNCF Sandbox 三连发

来源

关键事件(2026 上半年)

项目 贡献方 CNCF 状态 用途
llm-d IBM Research + Red Hat + Google Cloud Sandbox 分布式 LLM 推理框架
KAI Scheduler NVIDIA Sandbox GPU 集群 AI 负载编排
Grove NVIDIA 新发布 Kubernetes API for AI 负载编排

llm-d 意义:CNCF 接收 IBM/Red Hat/Google 三方联合贡献,标志推理框架走向标准化 + 开源治理

Grove:NVIDIA 新开源 Kubernetes API,用于 GPU 集群上 AI 负载编排,与 KAI Scheduler 协同

行业背景:82% 的组织已在 Kubernetes 上运行 AI 工作负载,但只有 7% 每天在生产环境部署 AI——说明 Kubernetes AI 基建仍有巨大标准化空间

Cloud Native AI & Inference Day(KubeCon NA 2026 同场) 议题方向: - LLM、RAG、Agentic Systems - Ethical Considerations in AI

工程借鉴

  • llm-d 值得关注:如需跨节点分布式推理框架,llm-d CNCF 生态是 2026 新标准候选
  • Grove + KAI Scheduler = NVIDIA 在 K8s GPU 编排的统一方案
  • 2026-06-26-1455-engineering-filter-vllm-llm-engine-bugs-grab-production.md 中 K8s 部署命令互补

建议分类

CloudNative Kubernetes CNCF LLM-Inference GPU KubeCon


六、Vector DB May 2026 回顾:CVE + 大版本 + 新量化引擎

来源

关键事件汇总

数据库 版本 重大更新 紧急程度
pgvector 0.8.2 CVE-2026-3172 安全补丁(跨 relation 数据泄露风险) 🔴 紧急:7 天内必须升级
Milvus 3.0.0-beta zero-copy 数据湖查询 🟡 关注正式版
Milvus 2.6.16 GA 稳定性补丁 🟢
Qdrant 1.18.0 + 1.18.1 TurboQuant 量化、dynamic named vectors、io_uring 优化 🟡 高价值
Pinecone Builder tier $20/月 GA 新定价层 🟢
Redis 8.6.3 多 CVE 安全补丁 🔴 紧急
Chroma 1.5.9 分片改进 🟢
Weaviate v1.37.4 / v1.35.19 稳定性补丁 🟢

pgvector CVE-2026-3172: - 风险:跨 PostgreSQL relation 的数据暴露 - 要求:运行 pgvector 生产环境的团队 7 天内必须升级到 0.8.2

Qdrant v1.18 TurboQuant:新型量化引擎,进一步降低向量存储开销 + 提升检索 QPS

Vector DB 2026 对比图(CallSphere): - pgvector:~5K-15K QPS(单 Postgres 实例,HNSW,1024-dim) - Qdrant:hybrid search + late interaction 最佳 - Milvus:超大规模(亿级向量)首选 - LanceDB:嵌入式 / 本地首选

建议分类

Vector-DB pgvector Qdrant Milvus CVE Security


七、CSDN 高价值条目(53AI)

来源

核心对比(SGLang 聚焦场景)

场景 SGLang 优势
Agent / ReAct 推理链 ✅ 更优
复杂提示词结构化生成 ✅ 更优
吞吐(通用场景) 持平或略优(部分 benchmark 5x 于 vLLM)
易用性 / 配置复杂度 ❌ 配置比 vLLM 复杂

与本轮条目关系

  • 与条目一(vLLM vs SGLang 选型框架)互为中英文互补来源
  • 53AI 补充了"Agent / ReAct 推理链"的判断

建议分类

CSDN SGLang vLLM RAG Agent


分类标签汇总

LLM-Inference vLLM SGLang Agent-Stack MCP Eval Guardrails KV-Cache Quantization GitHub-Trending CloudNative Kubernetes CNCF Vector-DB pgvector Qdrant Milvus CVE arXiv Substack


建议写入路径

/shared/research-kb/inbox/jay/2026-06-26-1505-evening-briefing-inference-agents-vecdb-kubecon-2026.md

是否需要精读/审稿/主题页更新

  • 精读:VeriCache(arXiv 2605.17613)—— KV cache 压缩+验证+推测解码结合的新范式
  • 审稿:六层 Agent Stack(The AI Engineer Substack)—— 可对比 OpenClaw 实例现有 agent 工程实践
  • 主题页更新:Vector DB 页面建议增加 CVE-2026-3172 pgvector 紧急升级提示;CNCF llm-d/KAI Scheduler/Grove 可加入 K8s AI 页面