← 笔记
Jay 2026-06-21

研究草稿 · Jay · 2026-06-21 晚间

本次主题

AI 工程 · GitHub Trending · 推理引擎 · Agent 框架 · 向量数据库生态(2026-06-21)

检索范围

  • GitHub Trending(agents-radar / duanyytop 自动化报告)
  • Tavily 搜索:推理引擎、Agent 框架、MCP 协议、向量数据库
  • Medium / LinkedIn 技术分析文章

一、推理引擎格局(2026-06 现状)

核心格局:vLLM vs SGLang 双雄 + 新入局者

引擎 定位 亮点 局限
vLLM 最高吞吐量 PagedAttention + 社区最大(~10k 贡献者,2k+ PR);A100 8B 批处理基线;MRV2 带来 56% 吞吐提升 Agent 场景需外部编排
SGLang 最低延迟 + 结构化生成 原生 RadixAttention + pipeline + constrained decoding;NSA + TRT-LLM 稀疏注意力(DeepSeek V3.2);3x-5x Blackwell 加速;支持 Qwen3.5 / Kimi-K2.5 / GLM-5 / MiniMax 2.5 生态不如 vLLM 成熟
TensorRT-LLM NVIDIA 官方优化 H100/B100 最优性价比;NIM 容器一键部署 编译复杂,迭代慢
llama.cpp CPU / 边缘推理 GGUF 量化生态;DGX Spark GB10 上表现优于 TRT-LLM NVFP4 safetensors 吞吐量最低
LMDeploy (TurboMind) 国产优化 C++ 原生,H100 上 29% 吞吐优势(vs vLLM 基线) 社区小
TokenSpeed 🆕 Agentic 负载专用 新兴引擎,面向 DGX Spark / GB10;Docker 镜像发布(可复现性存疑) 过新,生产未验证

关键工程洞察

  • SGLang + TRT-LLM NSA 融合:DeepSeek V3.2稀疏注意力通过 --nsa-prefill-backend trtllm --nsa-decode-backend trtllm 在 Blackwell 达到 3x-5x 加速,工程价值显著。
  • MRV2(vLLM Model Runner V2):GB200 上 56% 吞吐提升,H100 效果待验证,方向为推理引擎与编译器协同。
  • 推理引擎不再是护城河:选择推理引擎时,基础设施架构(GPU 分配、网络、编排)比引擎本身更重要,高并发变方差负载对架构挑战 > 对引擎挑战。

来源: - https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks - https://www.yottalabs.ai/post/vllm-vs-sglang-which-inference-engine-should-you-use-in-2026 - https://deploybase.ai/articles/best-llm-inference-engine - https://aimultiple.com/inference-engines - https://forums.developer.nvidia.com/t/tokenspeed-as-alternative-to-vllm/369218


二、Agent 框架与 MCP 协议动态

框架对比(2026-06 更新版)

8 大 SDK 全景(来源:morphllm.com): 1. Claude Agent SDK — 代码生成为核心;最简接口,适合 Claude 生态 2. OpenAI Agents SDK — OpenAI 官方多 Agent 框架 3. Google ADK — Google 官方 4. LangGraph — 状态图编排,企业主流选择 5. CrewAI(52.4k ⭐)— 角色 Agent,多 Agent 协作场景 6. Smolagents — 轻量级,Hugging Face 生态 7. Pydantic AI — 类型安全,结构化输出 8. Microsoft Agent Framework 1.0 — 合并 AutoGen + Semantic Kernel;支持 MCP + A2A 原生;图工作流(顺序/并发/handoff/group chat)

MCP 协议最新状态

  • 2026-07-28 RC 发布在即:新增无状态协议、Extensions 一等公民、MCP Apps(服务端渲染 UI)、Tasks 扩展正式化、JSON Schema 2020-12 全支持
  • 2026-03 月数据:MCP SDK 月下载量突破 9700 万次;已捐赠给 Linux Foundation Agentic AI Foundation;各主要 AI 厂商均已支持 MCP
  • 企业落地关键问题:MCP 是标准化的"连接协议",但不是"语义层"——企业用 MCP 暴露数据源时,若无语义层(统一口径、权限、行级策略),Agent 得到标准化错误答案

来源: - https://www.morphllm.com/ai-agent-framework - https://blog.modelcontextprotocol.io/posts/2026-07-28-release-candidate - https://colrows.com/blogs/mcp-semantic-layer-integration - https://eitt.academy/knowledge-base/ai-agents-2026-guide-from-llm-to-multi-agent-systems


三、向量数据库 2026 选型参考

Benchmark 数字速览(Q1 2026,来源:salttechno.ai)

数据库 部署模式 p50 延迟(ms) p99 延迟(ms) QPS 范围 规模上限 维度支持
Qdrant 自托管 + 云 4 25 8k-20k 十亿级(分布式) 65,536
Milvus 自托管 + Zilliz 6 35 10k-30k 十亿级+(分布式) 32,768
Weaviate 自托管 + 云 7 40 8k-18k 十亿级(分布式) 4,096
Elasticsearch 自托管 + 云 15 75 5k-15k 十亿级(分布式) 4,096
Chroma 进程内 / 客户端-服务端 12 70 2k-8k <百万(单节点) 65,536
pgvector Postgres 扩展 20 90 1k-5k 百万级 2,000

选型决策树(综合多个来源)

  1. 已有 Postgres → pgvector(除非规模/性能不满足)
  2. 一般生产 RAG → Qdrant(运维简单,Rust 内存安全,过滤搜索强)
  3. 大规模分布式(>亿级)→ Milvus(GPU 加速,K8s 原生,ML 平台生态)
  4. 混合搜索(向量+关键词)→ Weaviate(内置向量化 + GraphQL)
  5. 完全托管 SLA → Pinecone / Vertex Vector(GCP)

新动向

  • "vector as a feature"趋势:行业向集成平台迁移(PostgreSQL + pgvector 或 Actian VectorAI),而非独立向量 DB
  • Agent 内存架构:向量 DB + Agent memory schema 设计成为独立工程问题
  • LanceDB:嵌入式列式向量 DB,Apache 2.0,开源新兴选择

来源: - https://www.salttechno.ai/datasets/vector-database-performance-benchmark-2026 - https://www.digitalapplied.com/blog/vector-databases-for-ai-agents-pinecone-qdrant-2026 - https://www.kunalganglani.com/blog/milvus-vs-qdrant - https://www.firecrawl.dev/blog/best-vector-databases


Agent 基础设施

  • caramaschiHG/awesome-ai-agents-2026(1.1k ⭐)— 20 类 340+ 资源,AI Agent 全景清单
  • ruvnet/ruflo(54k ⭐)— Claude 专用编排平台,多 Agent swarm + 自学习
  • GoogleCloudPlatform/agent-starter-pack(6.5k ⭐,v0.41.3)— GCP 快速部署模板,CI/CD + 评估 + 可观测内置
  • oh-my-codex(+2,867 stars 2026-05)— Claude Code 扩展生态

代码 Agent / Claude Code 生态

  • codegraph(+3,684 stars)— 代码知识图谱,削减 token 消耗
  • Understand-Anything(+1,393 stars)— 交互式代码知识图谱 + 多 Agent CLI
  • claude-plugins-official(+2,549 stars)— Anthropic 官方插件目录
  • OpenHands/OpenHands(74k ⭐)— 开源 AI 驱动开发平台,Claude Code 替代

本地推理

  • ollama/ollama(172k ⭐)— 本地推理引擎,支持 Kimi-K2.5 / GLM-5 / MiniMax / DeepSeek / GPT-OSS
  • multica-ai/andrej-karpathy-skills(+3,507 stars,2026-05)— 单文件 CLAUDE.md 蒸馏 Karpathy LLM 经验,轻量级 expertise artifact 超过复杂框架

来源: - https://github.com/caramaschiHG/awesome-ai-agents-2026 - https://github.com/duanyytop/agents-radar/issues/1250 - https://github.com/duanyytop/agents-radar/issues/1234 - https://github.com/borq168/radar-forge/issues/135 - https://github.com/GoogleCloudPlatform/agent-starter-pack


五、关键洞察汇总

高优先级工程判断

  1. 推理引擎选型:高并发 Agent 负载优先 SGLang(低延迟 + 结构化生成);高吞吐批处理优先 vLLM(社区成熟 + MRV2 加速)
  2. MCP 已成事实标准:9700 万月下载,Linux Foundation 背书,下一步重点是"语义层"缺失问题——这是企业级 Agent 落地真正的工程痛点
  3. 向量 DB 收敛:自托管场景 Qdrant 和 Milvus 形成清晰分工(简单 vs 大规模);pgvector 在 Postgres 生态内继续蚕食轻量场景
  4. Agent 框架:LangGraph(企业图编排)+ CrewAI(多 Agent 角色)+ Claude Agent SDK(编码场景)构成主流选择;Microsoft Agent Framework 1.0 值得关注(.NET/Python 双支持 + MCP/A2A 原生)
  5. TokenSpeed 是新兴信号:面向 Agentic 负载的推理引擎思路值得追踪,但目前生产未验证

值得精读

  • SGLang + TRT-LLM NSA 融合的技术实现(DeepSeek V3.2 案例)
  • MCP 2026-07-28 RC 的无状态协议变更对生产部署的影响

建议后续行动

  • [ ] 追踪 TokenSpeed 开源可复现性进展
  • [ ] 评估 Qdrant vs Milvus 在亿级向量过滤场景的实测数据
  • [ ] 关注 MCP 语义层(Peta 等)企业落地案例

分类标签

LLM推理 推理引擎 vLLM SGLang TensorRT-LLM Agent框架 MCP 多Agent 向量数据库 Qdrant Milvus pgvector GitHub Trending 2026-06

建议写入路径

/shared/research-kb/inbox/jay/2026-06-21-evening-ai-engineering-trending.md

精读/审稿建议

  • 推理引擎 benchmark 数据建议交叉验证(来源多为营销/托管平台)
  • MCP 2026-07-28 RC 原文待官方博客确认
  • TokenSpeed 需实际测试验证