研究草稿 · Jay · 2026-06-21 晚间

本次主题

AI 工程 · GitHub Trending · 推理引擎 · Agent 框架 · 向量数据库生态（2026-06-21）

检索范围

GitHub Trending（agents-radar / duanyytop 自动化报告）
Tavily 搜索：推理引擎、Agent 框架、MCP 协议、向量数据库
Medium / LinkedIn 技术分析文章

一、推理引擎格局（2026-06 现状）

核心格局：vLLM vs SGLang 双雄 + 新入局者

引擎	定位	亮点	局限
vLLM	最高吞吐量	PagedAttention + 社区最大（~10k 贡献者，2k+ PR）；A100 8B 批处理基线；MRV2 带来 56% 吞吐提升	Agent 场景需外部编排
SGLang	最低延迟 + 结构化生成	原生 RadixAttention + pipeline + constrained decoding；NSA + TRT-LLM 稀疏注意力（DeepSeek V3.2）；3x-5x Blackwell 加速；支持 Qwen3.5 / Kimi-K2.5 / GLM-5 / MiniMax 2.5	生态不如 vLLM 成熟
TensorRT-LLM	NVIDIA 官方优化	H100/B100 最优性价比；NIM 容器一键部署	编译复杂，迭代慢
llama.cpp	CPU / 边缘推理	GGUF 量化生态；DGX Spark GB10 上表现优于 TRT-LLM NVFP4 safetensors	吞吐量最低
LMDeploy (TurboMind)	国产优化	C++ 原生，H100 上 29% 吞吐优势（vs vLLM 基线）	社区小
TokenSpeed 🆕	Agentic 负载专用	新兴引擎，面向 DGX Spark / GB10；Docker 镜像发布（可复现性存疑）	过新，生产未验证

关键工程洞察

SGLang + TRT-LLM NSA 融合：DeepSeek V3.2稀疏注意力通过 --nsa-prefill-backend trtllm --nsa-decode-backend trtllm 在 Blackwell 达到 3x-5x 加速，工程价值显著。
MRV2（vLLM Model Runner V2）：GB200 上 56% 吞吐提升，H100 效果待验证，方向为推理引擎与编译器协同。
推理引擎不再是护城河：选择推理引擎时，基础设施架构（GPU 分配、网络、编排）比引擎本身更重要，高并发变方差负载对架构挑战 > 对引擎挑战。

来源： - https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks - https://www.yottalabs.ai/post/vllm-vs-sglang-which-inference-engine-should-you-use-in-2026 - https://deploybase.ai/articles/best-llm-inference-engine - https://aimultiple.com/inference-engines - https://forums.developer.nvidia.com/t/tokenspeed-as-alternative-to-vllm/369218

二、Agent 框架与 MCP 协议动态

框架对比（2026-06 更新版）

8 大 SDK 全景（来源：morphllm.com）： 1. Claude Agent SDK — 代码生成为核心；最简接口，适合 Claude 生态 2. OpenAI Agents SDK — OpenAI 官方多 Agent 框架 3. Google ADK — Google 官方 4. LangGraph — 状态图编排，企业主流选择 5. CrewAI（52.4k ⭐）— 角色 Agent，多 Agent 协作场景 6. Smolagents — 轻量级，Hugging Face 生态 7. Pydantic AI — 类型安全，结构化输出 8. Microsoft Agent Framework 1.0 — 合并 AutoGen + Semantic Kernel；支持 MCP + A2A 原生；图工作流（顺序/并发/handoff/group chat）

MCP 协议最新状态

2026-07-28 RC 发布在即：新增无状态协议、Extensions 一等公民、MCP Apps（服务端渲染 UI）、Tasks 扩展正式化、JSON Schema 2020-12 全支持
2026-03 月数据：MCP SDK 月下载量突破 9700 万次；已捐赠给 Linux Foundation Agentic AI Foundation；各主要 AI 厂商均已支持 MCP
企业落地关键问题：MCP 是标准化的"连接协议"，但不是"语义层"——企业用 MCP 暴露数据源时，若无语义层（统一口径、权限、行级策略），Agent 得到标准化错误答案

来源： - https://www.morphllm.com/ai-agent-framework - https://blog.modelcontextprotocol.io/posts/2026-07-28-release-candidate - https://colrows.com/blogs/mcp-semantic-layer-integration - https://eitt.academy/knowledge-base/ai-agents-2026-guide-from-llm-to-multi-agent-systems

三、向量数据库 2026 选型参考

Benchmark 数字速览（Q1 2026，来源：salttechno.ai）

数据库	部署模式	p50 延迟(ms)	p99 延迟(ms)	QPS 范围	规模上限	维度支持
Qdrant	自托管 + 云	4	25	8k-20k	十亿级（分布式）	65,536
Milvus	自托管 + Zilliz	6	35	10k-30k	十亿级+（分布式）	32,768
Weaviate	自托管 + 云	7	40	8k-18k	十亿级（分布式）	4,096
Elasticsearch	自托管 + 云	15	75	5k-15k	十亿级（分布式）	4,096
Chroma	进程内 / 客户端-服务端	12	70	2k-8k	<百万（单节点）	65,536
pgvector	Postgres 扩展	20	90	1k-5k	百万级	2,000

选型决策树（综合多个来源）

已有 Postgres → pgvector（除非规模/性能不满足）
一般生产 RAG → Qdrant（运维简单，Rust 内存安全，过滤搜索强）
大规模分布式（>亿级）→ Milvus（GPU 加速，K8s 原生，ML 平台生态）
混合搜索（向量+关键词）→ Weaviate（内置向量化 + GraphQL）
完全托管 SLA → Pinecone / Vertex Vector（GCP）

新动向

"vector as a feature"趋势：行业向集成平台迁移（PostgreSQL + pgvector 或 Actian VectorAI），而非独立向量 DB
Agent 内存架构：向量 DB + Agent memory schema 设计成为独立工程问题
LanceDB：嵌入式列式向量 DB，Apache 2.0，开源新兴选择

来源： - https://www.salttechno.ai/datasets/vector-database-performance-benchmark-2026 - https://www.digitalapplied.com/blog/vector-databases-for-ai-agents-pinecone-qdrant-2026 - https://www.kunalganglani.com/blog/milvus-vs-qdrant - https://www.firecrawl.dev/blog/best-vector-databases

Agent 基础设施

caramaschiHG/awesome-ai-agents-2026（1.1k ⭐）— 20 类 340+ 资源，AI Agent 全景清单
ruvnet/ruflo（54k ⭐）— Claude 专用编排平台，多 Agent swarm + 自学习
GoogleCloudPlatform/agent-starter-pack（6.5k ⭐，v0.41.3）— GCP 快速部署模板，CI/CD + 评估 + 可观测内置
oh-my-codex（+2,867 stars 2026-05）— Claude Code 扩展生态

代码 Agent / Claude Code 生态

codegraph（+3,684 stars）— 代码知识图谱，削减 token 消耗
Understand-Anything（+1,393 stars）— 交互式代码知识图谱 + 多 Agent CLI
claude-plugins-official（+2,549 stars）— Anthropic 官方插件目录
OpenHands/OpenHands（74k ⭐）— 开源 AI 驱动开发平台，Claude Code 替代

本地推理

ollama/ollama（172k ⭐）— 本地推理引擎，支持 Kimi-K2.5 / GLM-5 / MiniMax / DeepSeek / GPT-OSS
multica-ai/andrej-karpathy-skills（+3,507 stars，2026-05）— 单文件 CLAUDE.md 蒸馏 Karpathy LLM 经验，轻量级 expertise artifact 超过复杂框架

来源： - https://github.com/caramaschiHG/awesome-ai-agents-2026 - https://github.com/duanyytop/agents-radar/issues/1250 - https://github.com/duanyytop/agents-radar/issues/1234 - https://github.com/borq168/radar-forge/issues/135 - https://github.com/GoogleCloudPlatform/agent-starter-pack

五、关键洞察汇总

高优先级工程判断

推理引擎选型：高并发 Agent 负载优先 SGLang（低延迟 + 结构化生成）；高吞吐批处理优先 vLLM（社区成熟 + MRV2 加速）
MCP 已成事实标准：9700 万月下载，Linux Foundation 背书，下一步重点是"语义层"缺失问题——这是企业级 Agent 落地真正的工程痛点
向量 DB 收敛：自托管场景 Qdrant 和 Milvus 形成清晰分工（简单 vs 大规模）；pgvector 在 Postgres 生态内继续蚕食轻量场景
Agent 框架：LangGraph（企业图编排）+ CrewAI（多 Agent 角色）+ Claude Agent SDK（编码场景）构成主流选择；Microsoft Agent Framework 1.0 值得关注（.NET/Python 双支持 + MCP/A2A 原生）
TokenSpeed 是新兴信号：面向 Agentic 负载的推理引擎思路值得追踪，但目前生产未验证

值得精读

SGLang + TRT-LLM NSA 融合的技术实现（DeepSeek V3.2 案例）
MCP 2026-07-28 RC 的无状态协议变更对生产部署的影响

建议后续行动

[ ] 追踪 TokenSpeed 开源可复现性进展
[ ] 评估 Qdrant vs Milvus 在亿级向量过滤场景的实测数据
[ ] 关注 MCP 语义层（Peta 等）企业落地案例

分类标签

LLM推理 推理引擎 vLLM SGLang TensorRT-LLM Agent框架 MCP 多Agent 向量数据库 Qdrant Milvus pgvector GitHub Trending 2026-06

建议写入路径

/shared/research-kb/inbox/jay/2026-06-21-evening-ai-engineering-trending.md

精读/审稿建议

推理引擎 benchmark 数据建议交叉验证（来源多为营销/托管平台）
MCP 2026-07-28 RC 原文待官方博客确认
TokenSpeed 需实际测试验证