研究草稿 · Jay · 2026-06-22 上午

本次主题

AI 工程 · GitHub Trending · LLM 推理引擎 · MCP 协议生态 · HF 趋势模型 · 向量数据库（2026-06-22）

检索范围

GitHub Trending（当日）
Hugging Face 模型趋势榜
Tavily：LLM 推理引擎比较、pgvector 新性能基准、AI Agent 框架格局、MCP 协议生态
Substack：AI Engineer 职位分析

1. headroom — LLM Token 压缩工具 ⭐ 高价值

链接： https://github.com/chopratejas/headroom Stars： 44,496（今日 +2,624） 语言： Python

核心功能： 在工具输出、日志、数据库读取、RAG 检索结果和 API 响应到达 LLM 之前进行压缩，节省 60–95% Token，答案准确率保持 100%。支持 6 种压缩算法，对接 100+ LLM Provider（通过 LiteLLM）。

三种部署模式： - 透明代理模式（零代码改动）：headroom proxy 启动代理，配置 ANTHROPIC_BASE_URL=http://localhost:8787 即可 - Python SDK：from headroom import compress - 框架集成：LangChain、Agno、Strands、LiteLLM Callback、MCP

评价： Token 成本是生产 LLM 应用的重大瓶颈，headroom 以透明代理方式切入，无需修改业务代码，工程落地成本极低。与 RAG 系统配合使用时，压缩 RAG 检索结果的效果尤为显著。生产可考虑引入。

2. codebase-memory-mcp — 代码智能 MCP 服务器 ⭐ 高价值

链接： https://github.com/DeusData/codebase-memory-mcp Stars： 10,327（今日 +1,032） 语言： C（二进制）

核心功能： 将代码库索引为持久化知识图谱，单静态二进制（macOS/Linux/Windows），零依赖，158 种语言（tree-sitter）。平均代码库毫秒级索引，Linux 内核（28M LOC，75K 文件）3 分钟完成。查询延迟 <1ms，每次查询仅 ~3,400 Token（vs 文件逐个搜索的 ~412,000 Token，减少 99%）。

技术亮点： - Hybrid LSP：对 Python/TS/JS/PHP/C#/Go/C/C++/Java/Kotlin/Rust 提供语义类型解析 - arXiv 论文支撑：Codebase-Memory: Tree-Sitter-Based Knowledge Graphs for LLM Code Exploration via MCP（arXiv:2603.27277） - 31 个真实代码库评测：答案质量 83%，Token 减少 10×，工具调用减少 2.1×

评价： 代码智能是 AI Agent 的核心场景之一。该项目以 MCP 协议输出，兼容 Claude Code、Cursor、Copilot 等 11 个主流 Coding Agent。arXiv 论文提供了可验证的基准数据，可信度高。适合作为 Coding Agent 知识记忆层的选型参考。

3. OpenMontage — 开源 Agentic 视频制作系统 ⭐ 有趣

链接： https://github.com/calesthio/OpenMontage Stars： 8,810（今日 +987） 语言： Python

核心功能： 自称"World's first open-source agentic video production system"，12 条 Pipeline，52 个工具，500+ Agent 技能。将 AI 编程助手扩展为完整视频制作工作室。

评价： 概念新颖，但工程复杂度高，生产稳定性未验证。关注多 Agent 协作系统架构可参考其 Pipeline 设计。

4. deer-flow — 长周期 SuperAgent 框架 ⭐ 有价值

链接： https://github.com/bytedance/deer-flow Stars： （ByteDance 出品）

核心功能： 长周期 SuperAgent 工具链，结合沙箱、记忆、工具、Skill、子 Agent 和消息网关，处理从分钟到小时级别的任务。

评价： ByteDance 在 Agent 系统工程化方向上的实践，多层抽象（沙箱 + 记忆 + 子 Agent）对复杂任务编排有参考价值。

二、LLM 推理引擎格局（2026-06 最新对比）

核心对比表

引擎	定位	2026 新进展	生产选型建议
vLLM	最高吞吐量	MRV2：GB200 56% 吞吐提升，H100 待验证；最新支持 Qwen3.5 / Kimi-K2.5 / GLM-5	高并发 API 服务首选
SGLang	最低延迟 + 结构化生成	NSA + TRT-LLM 稀疏注意力融合，Blackwell 3x-5x 加速；支持 DeepSeek V3.2	Agent 场景 + 低延迟需求首选
TensorRT-LLM	NVIDIA 官方优化	NIM 容器一键部署，降低工程门槛	NVIDIA GPU 生产环境
Modular MAX 🆕	新入局者	Mojo 内核图编译，密集模型高并发优于 vLLM	观望
llama.cpp	CPU / 边缘	GGUF 量化生态成熟，DGX Spark GB10 表现优于 TRT-LLM NVFP4	边缘/离线场景
LMDeploy	国产优化	TurboMind 引擎，H100 上 29% 吞吐优势	国内部署

关键工程结论

稀疏注意力实用化：DeepSeek V3.2 NSA + TRT-LLM 融合已在 Blackwell 落地，稀疏加速进入工程可用阶段。
推理引擎选择框架：高并发、API 场景 → vLLM；Agent、低延迟、结构化生成 → SGLang；NVIDIA 生产 → TensorRT-LLM + NIM；边缘 → llama.cpp。

参考来源： - https://deploybase.ai/articles/best-llm-inference-engine - https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks - https://lyceum.technology/magazine/vllm-production-deployment-guide-2026 - https://www.yottalabs.ai/post/best-llm-inference-engines-in-2026-vllm-tensorrt-llm-tgi-and-sglang-compared

三、AI Agent 框架格局（2026-06 更新）

2026 年主流框架对比

框架	优势	适用场景	MCP 支持
Claude Agent SDK	代码生成优先，工具调用简洁	编程助手 / 复杂推理 Agent	✅ 原生
OpenAI Agents SDK	Handoff 模式，多 Agent 协作	客服 / 任务分解	✅
Google ADK	多 Agent 系统，Vertex AI 集成	企业级 / Google 生态	✅
LangGraph	状态机图，工作流最成熟	生产级复杂工作流（Klarna/Cisco 生产验证）	✅ 原生
CrewAI	多 Agent 角色扮演，直观	快速原型	✅
Pydantic AI	类型安全，结构化输出	数据校验场景	✅
Microsoft Agent Framework 1.0	企业特性（Session/Telemetry/Middleware）	企业级 / Azure 集成	✅ 原生 MCP + A2A
Smolagents	轻量，代码优先	简单 Agent 场景	✅

协议层：MCP + A2A

MCP（Model Context Protocol）：已成为 Agent 工具调用事实标准，Anthropic 主推
A2A（Agent-to-Agent）：Microsoft/Google 推动，Multi-Agent 协作协议
ACP：LangChain 主推的协议层

关键趋势： 框架层的竞争已基本稳定（LangGraph 靠生产稳定性胜出），2026 年的竞争转移到协议互操作层——谁能让不同框架的 Agent 相互通信。

参考来源： - https://www.morphllm.com/ai-agent-framework（8 个框架完整对比） - https://alphacorp.ai/blog/the-8-best-ai-agent-frameworks-in-2026-a-developers-guide - https://gurusup.com/blog/best-multi-agent-frameworks-2026

四、pgvector 新性能基准（2026）

pgvector-scale：PostgreSQL 向量搜索追上专用向量库

关键数据： - Timescale pgvector-scale：50M 向量规模下，471 QPS，99% recall - 对比 Qdrant：pgvector-scale 性能是 Qdrant 的 11.4 倍 - 与 Pinecone 持平

结论： pgvector 不再是"慢速方案"，单数据库同时管理关系数据和向量（事务一致性）的架构优势，在 2026 年真正成为生产级选择。对于中小规模（<5000 万向量）应用，PostgreSQL + pgvector 完全够用，可避免引入独立向量库带来的运维复杂度和数据一致性成本。

2026 RAG 实战推荐栈： Postgres 16 + pgvector + HNSW 索引 + Matryoshka Embedding + halfvec 量化

参考来源： - https://dev.to/polliog/postgresql-as-a-vector-database-when-to-use-pgvector-vs-pinecone-vs-weaviate-4kfi - https://www.digitalapplied.com/blog/build-self-hosted-rag-postgres-pgvector-tutorial-2026 - https://upsun.com/blog/configuring-pgvector-postgres-for-rag

五、Hugging Face 趋势模型（2026-06-22）

模型	类型	参数量	下载量	亮点
deepseek-ai/DeepSeek-V4-Pro	Text Gen	862B	2.61M	开源最强dense模型之一
Qwen/Qwen3.6-35B-A3B	Image-Text	36B	5.15M	开源多模态顶流
HauhauCS/Qwen3.6-35B-A3B-Uncensored	Image-Text	35B	3.97M	无审查版
google/gemma-4-12B-it	Any-to-Any	12B	1.82M	Gemma 多模态旗舰
zai-org/GLM-5.2-FP8	Text Gen	753B	217k	FP8 量化版
zai-org/GLM-5.2	Text Gen	753B	27.4k	智谱旗舰
moonshotai/Kimi-K2.7-Code	Img-Text	1.1T (MoE)	363k	Kimi 代码专用
MiniMaxAI/MiniMax-M3	Img-Text	427B	104k	MiniMax 多模态
nvidia/LocateAnything-3B	Img-Text	4B	242k	视觉定位
microsoft/FastContext-1.0-4B-SFT	Text Gen	4B	2.59k	上下文优化

趋势观察： - 开源多模态竞争加剧：Qwen3.6-35B-A3B（5.15M 下载）和 DeepSeek-V4-Pro（2.61M）形成双雄 - 代码专用模型热：Kimi-K2.7-Code、GLM-5.2-FP8 受 AI 工程圈关注 - GGUF 量化版扩散：几乎所有主流模型都有量化版，满足本地部署需求

六、Substack 高价值内容

AI Engineer 职位分析（2026）

来源： alexeyondata.substack.com（Job Description 分析，n=1000+） 核心发现： - 89% 的"AI Engineer"职位实际上是做 LLM 应用开发（非传统 ML/DL） - 正式定义：AI Engineer 是负责设计、评估和生产运营基于基础模型系统的工程师 - 关键技能：LLM API 集成、RAG、Agent 框架、评估方法、推理优化 - 传统 ML（scikit-learn/XGBoost/CV/推荐）仅占 <2%

评价： 这是目前对"AI Engineer"职位最实证的分析之一，对团队技能建设和招聘有直接参考价值。

链接： https://alexeyondata.substack.com/p/what-1000-job-descriptions-reveal

分类标签

LLM推理引擎 MCP协议 Agent框架 向量数据库 RAG Token压缩 代码智能 pgvector vLLM SGLang HuggingFace

高价值条目汇总

优先级	条目	类型	核心价值
⭐⭐⭐	headroom	GitHub	Token 压缩生产工具，零代码改动接入
⭐⭐⭐	codebase-memory-mcp	GitHub/arXiv	代码库知识图谱，MCP 协议，评测数据扎实
⭐⭐⭐	pgvector-scale 471 QPS benchmark	技术博客	PostgreSQL 向量搜索追上专用向量库
⭐⭐⭐	vLLM vs SGLang vs TRT-LLM 2026 对比	技术博客	生产选型决策参考
⭐⭐	LangGraph / Agent Framework 2026 格局	技术博客	Multi-Agent 框架选型
⭐⭐	DeepSeek-V4-Pro / Kimi-K2.7-Code / GLM-5.2	HF 模型	开源模型生态动态
⭐⭐	AI Engineer 职位分析（n=1000+）	Substack	技能需求实证分析
⭐	OpenMontage	GitHub	多 Agent 视频制作概念参考
⭐	deer-flow	GitHub	ByteDance SuperAgent 架构参考

建议写入路径

/shared/research-kb/inbox/jay/2026-06-22-0935-ai-engineering-backend-inference-mcp-hf.md

后续行动建议

headroom：可在测试环境验证 Token 压缩效果（尤其 RAG 场景），评估集成成本
codebase-memory-mcp：阅读 arXiv:2603.27277，验证评测数据，结合 Coding Agent 使用场景
pgvector-scale：评估 pgvector-scale 与 Qdrant/Pinecone 的选型边界，形成向量库选型决策树
SGLang NSA + TRT-LLM：持续跟踪稀疏注意力在 DeepSeek V3.2 之外的模型扩展
AI Engineer 职位分析：建议纳入团队技能路线图参考