← 笔记
Jay 2026-06-22 09:35

研究草稿 · Jay · 2026-06-22 上午

本次主题

AI 工程 · GitHub Trending · LLM 推理引擎 · MCP 协议生态 · HF 趋势模型 · 向量数据库(2026-06-22)

检索范围

  • GitHub Trending(当日)
  • Hugging Face 模型趋势榜
  • Tavily:LLM 推理引擎比较、pgvector 新性能基准、AI Agent 框架格局、MCP 协议生态
  • Substack:AI Engineer 职位分析

1. headroom — LLM Token 压缩工具 ⭐ 高价值

链接: https://github.com/chopratejas/headroom Stars: 44,496(今日 +2,624) 语言: Python

核心功能: 在工具输出、日志、数据库读取、RAG 检索结果和 API 响应到达 LLM 之前进行压缩,节省 60–95% Token,答案准确率保持 100%。支持 6 种压缩算法,对接 100+ LLM Provider(通过 LiteLLM)。

三种部署模式: - 透明代理模式(零代码改动):headroom proxy 启动代理,配置 ANTHROPIC_BASE_URL=http://localhost:8787 即可 - Python SDKfrom headroom import compress - 框架集成:LangChain、Agno、Strands、LiteLLM Callback、MCP

评价: Token 成本是生产 LLM 应用的重大瓶颈,headroom 以透明代理方式切入,无需修改业务代码,工程落地成本极低。与 RAG 系统配合使用时,压缩 RAG 检索结果的效果尤为显著。生产可考虑引入。


2. codebase-memory-mcp — 代码智能 MCP 服务器 ⭐ 高价值

链接: https://github.com/DeusData/codebase-memory-mcp Stars: 10,327(今日 +1,032) 语言: C(二进制)

核心功能: 将代码库索引为持久化知识图谱,单静态二进制(macOS/Linux/Windows),零依赖,158 种语言(tree-sitter)。平均代码库毫秒级索引,Linux 内核(28M LOC,75K 文件)3 分钟完成。查询延迟 <1ms,每次查询仅 ~3,400 Token(vs 文件逐个搜索的 ~412,000 Token,减少 99%)。

技术亮点: - Hybrid LSP:对 Python/TS/JS/PHP/C#/Go/C/C++/Java/Kotlin/Rust 提供语义类型解析 - arXiv 论文支撑Codebase-Memory: Tree-Sitter-Based Knowledge Graphs for LLM Code Exploration via MCP(arXiv:2603.27277) - 31 个真实代码库评测:答案质量 83%,Token 减少 10×,工具调用减少 2.1×

评价: 代码智能是 AI Agent 的核心场景之一。该项目以 MCP 协议输出,兼容 Claude Code、Cursor、Copilot 等 11 个主流 Coding Agent。arXiv 论文提供了可验证的基准数据,可信度高。适合作为 Coding Agent 知识记忆层的选型参考。


3. OpenMontage — 开源 Agentic 视频制作系统 ⭐ 有趣

链接: https://github.com/calesthio/OpenMontage Stars: 8,810(今日 +987) 语言: Python

核心功能: 自称"World's first open-source agentic video production system",12 条 Pipeline,52 个工具,500+ Agent 技能。将 AI 编程助手扩展为完整视频制作工作室。

评价: 概念新颖,但工程复杂度高,生产稳定性未验证。关注多 Agent 协作系统架构可参考其 Pipeline 设计。


4. deer-flow — 长周期 SuperAgent 框架 ⭐ 有价值

链接: https://github.com/bytedance/deer-flow Stars: (ByteDance 出品)

核心功能: 长周期 SuperAgent 工具链,结合沙箱、记忆、工具、Skill、子 Agent 和消息网关,处理从分钟到小时级别的任务。

评价: ByteDance 在 Agent 系统工程化方向上的实践,多层抽象(沙箱 + 记忆 + 子 Agent)对复杂任务编排有参考价值。


二、LLM 推理引擎格局(2026-06 最新对比)

核心对比表

引擎 定位 2026 新进展 生产选型建议
vLLM 最高吞吐量 MRV2:GB200 56% 吞吐提升,H100 待验证;最新支持 Qwen3.5 / Kimi-K2.5 / GLM-5 高并发 API 服务首选
SGLang 最低延迟 + 结构化生成 NSA + TRT-LLM 稀疏注意力融合,Blackwell 3x-5x 加速;支持 DeepSeek V3.2 Agent 场景 + 低延迟需求首选
TensorRT-LLM NVIDIA 官方优化 NIM 容器一键部署,降低工程门槛 NVIDIA GPU 生产环境
Modular MAX 🆕 新入局者 Mojo 内核图编译,密集模型高并发优于 vLLM 观望
llama.cpp CPU / 边缘 GGUF 量化生态成熟,DGX Spark GB10 表现优于 TRT-LLM NVFP4 边缘/离线场景
LMDeploy 国产优化 TurboMind 引擎,H100 上 29% 吞吐优势 国内部署

关键工程结论

  • 稀疏注意力实用化:DeepSeek V3.2 NSA + TRT-LLM 融合已在 Blackwell 落地,稀疏加速进入工程可用阶段。
  • 推理引擎选择框架:高并发、API 场景 → vLLM;Agent、低延迟、结构化生成 → SGLang;NVIDIA 生产 → TensorRT-LLM + NIM;边缘 → llama.cpp。

参考来源: - https://deploybase.ai/articles/best-llm-inference-engine - https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks - https://lyceum.technology/magazine/vllm-production-deployment-guide-2026 - https://www.yottalabs.ai/post/best-llm-inference-engines-in-2026-vllm-tensorrt-llm-tgi-and-sglang-compared


三、AI Agent 框架格局(2026-06 更新)

2026 年主流框架对比

框架 优势 适用场景 MCP 支持
Claude Agent SDK 代码生成优先,工具调用简洁 编程助手 / 复杂推理 Agent ✅ 原生
OpenAI Agents SDK Handoff 模式,多 Agent 协作 客服 / 任务分解
Google ADK 多 Agent 系统,Vertex AI 集成 企业级 / Google 生态
LangGraph 状态机图,工作流最成熟 生产级复杂工作流(Klarna/Cisco 生产验证) ✅ 原生
CrewAI 多 Agent 角色扮演,直观 快速原型
Pydantic AI 类型安全,结构化输出 数据校验场景
Microsoft Agent Framework 1.0 企业特性(Session/Telemetry/Middleware) 企业级 / Azure 集成 ✅ 原生 MCP + A2A
Smolagents 轻量,代码优先 简单 Agent 场景

协议层:MCP + A2A

  • MCP(Model Context Protocol):已成为 Agent 工具调用事实标准,Anthropic 主推
  • A2A(Agent-to-Agent):Microsoft/Google 推动,Multi-Agent 协作协议
  • ACP:LangChain 主推的协议层

关键趋势: 框架层的竞争已基本稳定(LangGraph 靠生产稳定性胜出),2026 年的竞争转移到协议互操作层——谁能让不同框架的 Agent 相互通信。

参考来源: - https://www.morphllm.com/ai-agent-framework(8 个框架完整对比) - https://alphacorp.ai/blog/the-8-best-ai-agent-frameworks-in-2026-a-developers-guide - https://gurusup.com/blog/best-multi-agent-frameworks-2026


四、pgvector 新性能基准(2026)

pgvector-scale:PostgreSQL 向量搜索追上专用向量库

关键数据: - Timescale pgvector-scale:50M 向量规模下,471 QPS,99% recall - 对比 Qdrant:pgvector-scale 性能是 Qdrant 的 11.4 倍 - 与 Pinecone 持平

结论: pgvector 不再是"慢速方案",单数据库同时管理关系数据和向量(事务一致性)的架构优势,在 2026 年真正成为生产级选择。对于中小规模(<5000 万向量)应用,PostgreSQL + pgvector 完全够用,可避免引入独立向量库带来的运维复杂度和数据一致性成本。

2026 RAG 实战推荐栈: Postgres 16 + pgvector + HNSW 索引 + Matryoshka Embedding + halfvec 量化

参考来源: - https://dev.to/polliog/postgresql-as-a-vector-database-when-to-use-pgvector-vs-pinecone-vs-weaviate-4kfi - https://www.digitalapplied.com/blog/build-self-hosted-rag-postgres-pgvector-tutorial-2026 - https://upsun.com/blog/configuring-pgvector-postgres-for-rag


五、Hugging Face 趋势模型(2026-06-22)

模型 类型 参数量 下载量 亮点
deepseek-ai/DeepSeek-V4-Pro Text Gen 862B 2.61M 开源最强dense模型之一
Qwen/Qwen3.6-35B-A3B Image-Text 36B 5.15M 开源多模态顶流
HauhauCS/Qwen3.6-35B-A3B-Uncensored Image-Text 35B 3.97M 无审查版
google/gemma-4-12B-it Any-to-Any 12B 1.82M Gemma 多模态旗舰
zai-org/GLM-5.2-FP8 Text Gen 753B 217k FP8 量化版
zai-org/GLM-5.2 Text Gen 753B 27.4k 智谱旗舰
moonshotai/Kimi-K2.7-Code Img-Text 1.1T (MoE) 363k Kimi 代码专用
MiniMaxAI/MiniMax-M3 Img-Text 427B 104k MiniMax 多模态
nvidia/LocateAnything-3B Img-Text 4B 242k 视觉定位
microsoft/FastContext-1.0-4B-SFT Text Gen 4B 2.59k 上下文优化

趋势观察: - 开源多模态竞争加剧:Qwen3.6-35B-A3B(5.15M 下载)和 DeepSeek-V4-Pro(2.61M)形成双雄 - 代码专用模型热:Kimi-K2.7-Code、GLM-5.2-FP8 受 AI 工程圈关注 - GGUF 量化版扩散:几乎所有主流模型都有量化版,满足本地部署需求


六、Substack 高价值内容

AI Engineer 职位分析(2026)

来源: alexeyondata.substack.com(Job Description 分析,n=1000+) 核心发现: - 89% 的"AI Engineer"职位实际上是做 LLM 应用开发(非传统 ML/DL) - 正式定义:AI Engineer 是负责设计、评估和生产运营基于基础模型系统的工程师 - 关键技能:LLM API 集成、RAG、Agent 框架、评估方法、推理优化 - 传统 ML(scikit-learn/XGBoost/CV/推荐)仅占 <2%

评价: 这是目前对"AI Engineer"职位最实证的分析之一,对团队技能建设和招聘有直接参考价值。

链接: https://alexeyondata.substack.com/p/what-1000-job-descriptions-reveal


分类标签

LLM推理引擎 MCP协议 Agent框架 向量数据库 RAG Token压缩 代码智能 pgvector vLLM SGLang HuggingFace


高价值条目汇总

优先级 条目 类型 核心价值
⭐⭐⭐ headroom GitHub Token 压缩生产工具,零代码改动接入
⭐⭐⭐ codebase-memory-mcp GitHub/arXiv 代码库知识图谱,MCP 协议,评测数据扎实
⭐⭐⭐ pgvector-scale 471 QPS benchmark 技术博客 PostgreSQL 向量搜索追上专用向量库
⭐⭐⭐ vLLM vs SGLang vs TRT-LLM 2026 对比 技术博客 生产选型决策参考
⭐⭐ LangGraph / Agent Framework 2026 格局 技术博客 Multi-Agent 框架选型
⭐⭐ DeepSeek-V4-Pro / Kimi-K2.7-Code / GLM-5.2 HF 模型 开源模型生态动态
⭐⭐ AI Engineer 职位分析(n=1000+) Substack 技能需求实证分析
OpenMontage GitHub 多 Agent 视频制作概念参考
deer-flow GitHub ByteDance SuperAgent 架构参考

建议写入路径

/shared/research-kb/inbox/jay/2026-06-22-0935-ai-engineering-backend-inference-mcp-hf.md

后续行动建议

  1. headroom:可在测试环境验证 Token 压缩效果(尤其 RAG 场景),评估集成成本
  2. codebase-memory-mcp:阅读 arXiv:2603.27277,验证评测数据,结合 Coding Agent 使用场景
  3. pgvector-scale:评估 pgvector-scale 与 Qdrant/Pinecone 的选型边界,形成向量库选型决策树
  4. SGLang NSA + TRT-LLM:持续跟踪稀疏注意力在 DeepSeek V3.2 之外的模型扩展
  5. AI Engineer 职位分析:建议纳入团队技能路线图参考