研究草稿 · 2026-06-13 下午版 · GitHub Trending + 推理引擎更新 + 向量数据库选型 + AI Agent框架排名
实例: Jay | 检索范围: GitHub Trending + HuggingFace Trending + arXiv + tavily + Substack (The AI Engineer) | 类型: 高频运营
一、GitHub Trending 高价值条目(2026-06-13)
⭐⭐⭐⭐⭐ 必读:addyosmani/agent-skills — AI 编码 Agent 的生产级工程技能
- 来源: GitHub Trending ·
addyosmani(Google 工程大佬)· "Production-grade engineering skills for AI coding agents" - URL:
https://github.com/addyosmani/agent-skills - Stars: 57,386 | Forks: 6,203 | 今日新增: 2,656 ⭐
- 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高
- 核心定位: 为 AI 编码 Agent 提供生产级工程技能(skills),覆盖测试、重构、代码审查、调试等工程任务
- 维护者: addyosmani + federicobartoli + nucliweb + claude + dj2313 — 质量背书强
- 值得关注的模式: 将 LangChain/CrewAI 等 agent 框架与具体"技能"解耦,使 agent 可复用工程能力而非硬编码 prompt
- 后续行动: 深入分析该 repo 的技能定义格式(JSON/YAML Schema),判断是否可成为内部 Agent Skill 标准的参考
- 建议分类:
ai-agentengineering-skillsgithub-trendingprompt-engineeringproduction
LMCache/LMCache — KV Cache 加速层(今日 28⭐)
- 来源: GitHub · LMCache 团队(ApostaC, maobaolong, YaoJiayi 等 ML 工程师)
- URL:
https://github.com/LMCache/LMCache - Stars: 8,718 | Forks: 1,295
- 核心价值: "Supercharge Your LLM with the Fastest KV Cache Layer" — 提供 KV Cache 的分布式缓存与 offload 能力
- NVIDIA Dynamo 1.0 已集成 LMCache(见昨日 2026-06-13 午后版),使其成为 disaggregated inference 原生组件
- 应用场景: 多轮 agent 对话跨轮次 KV cache 复用、降低首 token 延迟、提升 decode 池集群利用率
- 建议分类:
kv-cachellm-inferencedistributed-systemsnvidia-dynamo
apple/container — Mac 上的 Linux 容器工具(3,504 今日⭐)
- 来源: Apple 官方 · Swift 编写,为 Apple Silicon 优化
- URL:
https://github.com/apple/container - Stars: 35,592 | Forks: 1,001
- 可信度: ⭐⭐⭐⭐⭐ | Apple 官方开源
- 核心功能: 在 Mac 上创建和运行 Linux 容器(基于轻量级 VM,针对 Apple Silicon 优化)
- 工程价值: 对在 Mac 本地做 AI/ML 实验的团队有参考意义;也展示了轻量级 VM 容器化的一种实现路径
- 建议分类:
containerapple-silicondevopsinfrastructure
obra/superpowers — Agentic Skills 框架
- 来源: GitHub · "An agentic skills framework & software development methodology that works."
- URL:
https://github.com/obra/superpowers - 定位: 与
agent-skills形成对比,两者都是 agent 技能框架但思路不同 - 需进一步核验: 该 repo 的工程成熟度和维护状态
- 建议分类:
ai-agentagentic-skillsframework
二、LLM 推理引擎 Benchmark 更新(2026-06 权威对比)
⭐⭐⭐⭐⭐ SGLang v0.4.3 + LMDeploy 并列第一 — vLLM v0.7.3 跟进
来源汇总: Spheron Blog (H100 实测) + MorphLLM + Yotta Labs + The AI Engineer Substack
| 引擎 | 版本 | H100 吞吐 | 关键特性 | 最适场景 |
|---|---|---|---|---|
| SGLang | v0.4.3 | 16,200 tok/s | RadixAttention 前缀缓存 | 前缀密集型(RAG、chat、multi-turn) |
| LMDeploy | Latest | 16,200 tok/s | Persistent batch scheduling | 高吞吐批处理 |
| vLLM | v0.7.3 | 12,500 tok/s | PagedAttention、Blackwell 支持 | 灵活换模型、频繁更新 |
| TensorRT-LLM | Latest | 最高(高并发) | 编译 CUDA 内核 | 单模型长期生产、极致吞吐 |
关键数据(Spheron 实测,H100 80GB,Llama 3.3 70B,FP8): - vLLM TTFT p50(10 req): 120ms - SGLang TTFT p50: 112ms - TensorRT-LLM TTFT p50: 105ms
⭐ 重要信号 — TGI(Text Generation Inference)正式进入维护模式: - HuggingFace TGI GitHub README 明确标注:只接受 minor bug fix 和文档 PR - 推荐迁移目标:vLLM、SGLang、llama.cpp - 影响:仍在生产中跑 TGI 的团队需尽快规划迁移路径
决策建议: - 快速上线 + 灵活换模型 → vLLM - 前缀共享密集型工作负载(RAG、chatbot、多轮)→ SGLang - 极致吞吐 + 单模型固定长期运行 → TensorRT-LLM(编译周期长但性能最优)
建议分类: llm-inference vllm sglang tensorrt-llm lmdeploy benchmark production
三、AI Agent 框架 2026 生产排名(Alice Labs 18+ 部署实测)
来源: Alice Labs · "Best AI Agent Frameworks 2026: 7 Production-Tested Rankings" · 2026-04-15(更新至 2026-05-28)
排名总览
| 排名 | 框架 | 最适场景 | 生产评分亮点 |
|---|---|---|---|
| #1 | LangGraph | 复杂有状态工作流 | 34.5M 月下载量,生产部署量第一(Klarna, Cisco, Vizient);有状态模式可节省 40-50% LLM 调用 |
| #2 | Claude Agent SDK | Anthropic 原生生产 Agent | Claude Code 背后框架;工具调用 + 会话管理深度集成 |
| #3 | CrewAI | 角色型多 Agent 团队 | 角色分配清晰,但异步执行和前端流式输出有已知痛点 |
| #4 | AutoGen/AG2 | 对话驱动多 Agent | 无中央调度器,协作驱动进展 |
| #5 | Semantic Kernel | .NET 企业栈 | 插件模型对非 AI 开发者友好,民主化 agent 开发 |
| #6 | LlamaIndex | RAG 核心的 Agent | 检索能力强,可与 LangGraph 组合使用 |
| #7 | Pydantic AI | 类型安全 Python | 静态类型保障,减少 agent 输出解析错误 |
⭐ 重要洞察 — LangGraph 生态壁垒: - LangSmith 集成提供 step-by-step 可视化和多轮评估,开箱即用 - 34.5M 月下载量 → 生态社区已形成,文档/插件/模板丰富 - 切换框架代价高昂(编排模型差异),选型需谨慎
企业视角补充(Intuz + Rasa 视角): - 托管企业平台(Intuz): 适合无内部 ML 平台团队的 enterprise 快速落地 - Rasa CALM: 受监管行业(金融、医疗)首选,自托管 + deterministic governance - Swisscom 案例: 20 周从原型到生产,自动化率翻倍,成本降 50%
建议分类: ai-agent langgraph crewai autogen pydantic-ai production framework-comparison
四、向量数据库 2026 选型矩阵(Qdrant v1.13 + pgvector + Milvus)
来源汇总: aiml.qa + Kunal Ganglani Blog + Buttondown (ultradune) + Digital Applied + PingCAP TiDB 对比
2026 向量数据库分层
| Tier | 选项 | 定位 | 核心优势 |
|---|---|---|---|
| Managed Leader | Pinecone, Vertex Vector | 全托管 SaaS | 零运维,企业合规 |
| OSS Primary | Qdrant, Weaviate, Milvus | 自托管 + 托管 | 功能丰富 |
| Postgres 集成 | pgvector, Chroma | 嵌入/轻量 | 架构简单 |
| 亿级规模 | Vespa, Milvus | PB 级 | 分布式检索 |
Qdrant v1.13(2026-02)关键更新
- 服务端 RAG 原语: 内置 chunk grouping + document-level scoring,减少应用层后处理
- 查询规划器重写: 复杂过滤搜索延迟降低 ~40%
- Collection aliases: 蓝绿部署新 embedding 模型时无需重建索引
pgvector 生产边界(经验值)
- ✅ 50-100M 向量以内完全生产就绪(HNSW 索引)
- ✅ 已有 Postgres 团队强烈推荐,避免引入新基础设施
- ⚠️ 超过 100M 向量后 HNSW 重建时间变长,切换到 Qdrant 或 Milvus
向量 DB 决策树(实战经验)
"已跑 Postgres + <5M 向量" → pgvector
"全托管 + 任意规模" → Pinecone
"GCP 原生团队" → Vertex Vector
"强过滤需求 + 开源可控" → Qdrant
"内置向量化 + 混合搜索" → Weaviate
"100M+ 向量 + 基础设施团队" → Milvus / Zilliz
"边缘部署 / 桌面 / 数据科学流程" → LanceDB
建议分类: vector-database qdrant pgvector milvus pinecone weaviate rag production
五、arXiv 精选 — KVServe + AsymCache(LLM 推理系统新研究)
KVServe — 解聚合 LLM Serving 的 KV Cache 压缩
- 来源: arXiv 2605.13734v1 · "KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving"
- 核心场景: disaggregated LLM 架构(prefill/decode 分离)下,KV cache 跨节点传输成为 I/O 瓶颈
- KVServe 方案: 1. 离线建立"压缩配置候选集"(压缩算法 × 模型 × 服务质量权衡) 2. 在线控制器基于实时服务上下文选择最优配置 3. 集成 nvCOMP(NVIDIA 高性能压缩库)
- 创新点: service-aware 而非纯压缩率导向;考虑端到端延迟收益
- 与现有系统关系: 可与 vLLM PagedAttention / Continuum / InferCept 组合使用
- 建议分类:
llm-inferencekv-cachedisaggregated-servingarxivcompression
AsymCache — 位置感知、Latency 感知的 KV Cache 管理
- 来源: arXiv 2606.02964v1 · "Multi-Segment Attention: Enabling Efficient KV-Cache Management"
- AsymCache 核心设计:
- GPU attention kernel 性能随 KV cache 位置非线性变化
- 提出 expected-latency-aware eviction policy,显式对齐 KV cache 留存决策与 GPU 访问模式
- 三组件:position-aware block管理 + latency model + online eviction controller
- 可与 Continuum(agent 场景 KV cache 管理)叠加: AsymCache 在 block 级别提供额外性能收益
- 建议分类:
llm-inferencekv-cachegpu-optimizationarxivlatency
六、Substack 研究洞察 — The AI Engineer(vLLM vs Ollama vs SGLang vs TensorRT-LLM)
来源: The AI Engineer Substack · "vLLM vs Ollama vs SGLang vs TensorRT-LLM"
- URL: https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt
- 可信度: ⭐⭐⭐⭐ | 内容类型: 工程师横向对比,有真实 benchmark 数据
- 核心观点:
- TGI 官方进入维护模式,vLLM/SGLang/llama.cpp 正式接管开源推理引擎生态
- Ollama 定位清晰:本地 5 分钟上手,单用户原型,不适合生产高并发
- 决策流程图(decision flowchart)实用:按"是否需要换模型 / 是否前缀密集 / 是否需要极致吞吐"三维度选择
- 引用来源质量: 引用了 Kwon et al. PagedAttention (SOSP 2023)、Zheng et al. SGLang (2024)、vLLM GitHub 等一手文献
- 后续建议: 可作为内部"推理引擎选型决策树"的信息来源,不直接复制
- 建议分类: llm-inference vllm sglang tensorrt-llm substack decision-guide
本次覆盖总结
| 主题 | 高价值条目 | 可信度 | 建议行动 |
|---|---|---|---|
| GitHub Trending | addyosmani/agent-skills |
⭐⭐⭐⭐⭐ | 分析技能格式,推进内部标准化 |
| KV Cache | LMCache + KVServe + AsymCache | ⭐⭐⭐⭐ | 追踪 NVIDIA Dynamo 1.0 + LMCache 集成落地 |
| 推理引擎 | SGLang v0.4.3 ≈ LMDeploy (16.2k tok/s) | ⭐⭐⭐⭐⭐ | 规划 TGI → vLLM/SGLang 迁移路径 |
| AI Agent 框架 | LangGraph 领跑,CrewAI/AutoGen/SK 梯队 | ⭐⭐⭐⭐ | 生产选型参考 Alice Labs 评分 |
| 向量数据库 | Qdrant v1.13 / pgvector 50M 向量边界 / Milvus 亿级 | ⭐⭐⭐⭐ | 按团队规模和数据量对照决策树选型 |
| Substack | The AI Engineer 推理引擎横向对比 | ⭐⭐⭐⭐ | 用于内部分享和决策树参考 |
建议写入路径: /shared/research-kb/review/ (待同步任务处理)
本文件路径: /shared/research-kb/inbox/jay/2026-06-13-1700-github-trending-agentic-inference-vector-substack.md
是否需精读: ✅ KVServe + AsymCache 原文(arXiv);✅ agent-skills repo 结构分析
是否需审稿: ⚠️ Substack 内容仅作参考,不做原文引用