研究草稿 · 2026-06-13 下午版 · GitHub Trending + 推理引擎更新 + 向量数据库选型 + AI Agent框架排名

实例: Jay | 检索范围: GitHub Trending + HuggingFace Trending + arXiv + tavily + Substack (The AI Engineer) | 类型: 高频运营

⭐⭐⭐⭐⭐ 必读：addyosmani/agent-skills — AI 编码 Agent 的生产级工程技能

来源: GitHub Trending · addyosmani（Google 工程大佬）· "Production-grade engineering skills for AI coding agents"
URL: https://github.com/addyosmani/agent-skills
Stars: 57,386 | Forks: 6,203 | 今日新增: 2,656 ⭐
可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高
核心定位: 为 AI 编码 Agent 提供生产级工程技能（skills），覆盖测试、重构、代码审查、调试等工程任务
维护者: addyosmani + federicobartoli + nucliweb + claude + dj2313 — 质量背书强
值得关注的模式: 将 LangChain/CrewAI 等 agent 框架与具体"技能"解耦，使 agent 可复用工程能力而非硬编码 prompt
后续行动: 深入分析该 repo 的技能定义格式（JSON/YAML Schema），判断是否可成为内部 Agent Skill 标准的参考
建议分类: ai-agent engineering-skills github-trending prompt-engineering production

LMCache/LMCache — KV Cache 加速层（今日 28⭐）

来源: GitHub · LMCache 团队（ApostaC, maobaolong, YaoJiayi 等 ML 工程师）
URL: https://github.com/LMCache/LMCache
Stars: 8,718 | Forks: 1,295
核心价值: "Supercharge Your LLM with the Fastest KV Cache Layer" — 提供 KV Cache 的分布式缓存与 offload 能力
NVIDIA Dynamo 1.0 已集成 LMCache（见昨日 2026-06-13 午后版），使其成为 disaggregated inference 原生组件
应用场景: 多轮 agent 对话跨轮次 KV cache 复用、降低首 token 延迟、提升 decode 池集群利用率
建议分类: kv-cache llm-inference distributed-systems nvidia-dynamo

apple/container — Mac 上的 Linux 容器工具（3,504 今日⭐）

来源: Apple 官方 · Swift 编写，为 Apple Silicon 优化
URL: https://github.com/apple/container
Stars: 35,592 | Forks: 1,001
可信度: ⭐⭐⭐⭐⭐ | Apple 官方开源
核心功能: 在 Mac 上创建和运行 Linux 容器（基于轻量级 VM，针对 Apple Silicon 优化）
工程价值: 对在 Mac 本地做 AI/ML 实验的团队有参考意义；也展示了轻量级 VM 容器化的一种实现路径
建议分类: container apple-silicon devops infrastructure

obra/superpowers — Agentic Skills 框架

来源: GitHub · "An agentic skills framework & software development methodology that works."
URL: https://github.com/obra/superpowers
定位: 与 agent-skills 形成对比，两者都是 agent 技能框架但思路不同
需进一步核验: 该 repo 的工程成熟度和维护状态
建议分类: ai-agent agentic-skills framework

二、LLM 推理引擎 Benchmark 更新（2026-06 权威对比）

⭐⭐⭐⭐⭐ SGLang v0.4.3 + LMDeploy 并列第一 — vLLM v0.7.3 跟进

来源汇总: Spheron Blog (H100 实测) + MorphLLM + Yotta Labs + The AI Engineer Substack

引擎	版本	H100 吞吐	关键特性	最适场景
SGLang	v0.4.3	16,200 tok/s	RadixAttention 前缀缓存	前缀密集型（RAG、chat、multi-turn）
LMDeploy	Latest	16,200 tok/s	Persistent batch scheduling	高吞吐批处理
vLLM	v0.7.3	12,500 tok/s	PagedAttention、Blackwell 支持	灵活换模型、频繁更新
TensorRT-LLM	Latest	最高（高并发）	编译 CUDA 内核	单模型长期生产、极致吞吐

关键数据（Spheron 实测，H100 80GB，Llama 3.3 70B，FP8）: - vLLM TTFT p50（10 req）: 120ms - SGLang TTFT p50: 112ms - TensorRT-LLM TTFT p50: 105ms

⭐ 重要信号 — TGI（Text Generation Inference）正式进入维护模式: - HuggingFace TGI GitHub README 明确标注：只接受 minor bug fix 和文档 PR - 推荐迁移目标：vLLM、SGLang、llama.cpp - 影响：仍在生产中跑 TGI 的团队需尽快规划迁移路径

决策建议: - 快速上线 + 灵活换模型 → vLLM - 前缀共享密集型工作负载（RAG、chatbot、多轮）→ SGLang - 极致吞吐 + 单模型固定长期运行 → TensorRT-LLM（编译周期长但性能最优）

建议分类: llm-inference vllm sglang tensorrt-llm lmdeploy benchmark production

三、AI Agent 框架 2026 生产排名（Alice Labs 18+ 部署实测）

来源: Alice Labs · "Best AI Agent Frameworks 2026: 7 Production-Tested Rankings" · 2026-04-15（更新至 2026-05-28）

排名总览

排名	框架	最适场景	生产评分亮点
#1	LangGraph	复杂有状态工作流	34.5M 月下载量，生产部署量第一（Klarna, Cisco, Vizient）；有状态模式可节省 40-50% LLM 调用
#2	Claude Agent SDK	Anthropic 原生生产 Agent	Claude Code 背后框架；工具调用 + 会话管理深度集成
#3	CrewAI	角色型多 Agent 团队	角色分配清晰，但异步执行和前端流式输出有已知痛点
#4	AutoGen/AG2	对话驱动多 Agent	无中央调度器，协作驱动进展
#5	Semantic Kernel	.NET 企业栈	插件模型对非 AI 开发者友好，民主化 agent 开发
#6	LlamaIndex	RAG 核心的 Agent	检索能力强，可与 LangGraph 组合使用
#7	Pydantic AI	类型安全 Python	静态类型保障，减少 agent 输出解析错误

⭐ 重要洞察 — LangGraph 生态壁垒: - LangSmith 集成提供 step-by-step 可视化和多轮评估，开箱即用 - 34.5M 月下载量 → 生态社区已形成，文档/插件/模板丰富 - 切换框架代价高昂（编排模型差异），选型需谨慎

企业视角补充（Intuz + Rasa 视角）: - 托管企业平台（Intuz）: 适合无内部 ML 平台团队的 enterprise 快速落地 - Rasa CALM: 受监管行业（金融、医疗）首选，自托管 + deterministic governance - Swisscom 案例: 20 周从原型到生产，自动化率翻倍，成本降 50%

建议分类: ai-agent langgraph crewai autogen pydantic-ai production framework-comparison

四、向量数据库 2026 选型矩阵（Qdrant v1.13 + pgvector + Milvus）

来源汇总: aiml.qa + Kunal Ganglani Blog + Buttondown (ultradune) + Digital Applied + PingCAP TiDB 对比

2026 向量数据库分层

Tier	选项	定位	核心优势
Managed Leader	Pinecone, Vertex Vector	全托管 SaaS	零运维，企业合规
OSS Primary	Qdrant, Weaviate, Milvus	自托管 + 托管	功能丰富
Postgres 集成	pgvector, Chroma	嵌入/轻量	架构简单
亿级规模	Vespa, Milvus	PB 级	分布式检索

Qdrant v1.13（2026-02）关键更新

服务端 RAG 原语: 内置 chunk grouping + document-level scoring，减少应用层后处理
查询规划器重写: 复杂过滤搜索延迟降低 ~40%
Collection aliases: 蓝绿部署新 embedding 模型时无需重建索引

pgvector 生产边界（经验值）

✅ 50-100M 向量以内完全生产就绪（HNSW 索引）
✅ 已有 Postgres 团队强烈推荐，避免引入新基础设施
⚠️ 超过 100M 向量后 HNSW 重建时间变长，切换到 Qdrant 或 Milvus

向量 DB 决策树（实战经验）

"已跑 Postgres + <5M 向量" → pgvector
"全托管 + 任意规模" → Pinecone
"GCP 原生团队" → Vertex Vector
"强过滤需求 + 开源可控" → Qdrant
"内置向量化 + 混合搜索" → Weaviate
"100M+ 向量 + 基础设施团队" → Milvus / Zilliz
"边缘部署 / 桌面 / 数据科学流程" → LanceDB

建议分类: vector-database qdrant pgvector milvus pinecone weaviate rag production

五、arXiv 精选 — KVServe + AsymCache（LLM 推理系统新研究）

KVServe — 解聚合 LLM Serving 的 KV Cache 压缩

来源: arXiv 2605.13734v1 · "KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving"
核心场景: disaggregated LLM 架构（prefill/decode 分离）下，KV cache 跨节点传输成为 I/O 瓶颈
KVServe 方案: 1. 离线建立"压缩配置候选集"（压缩算法 × 模型 × 服务质量权衡） 2. 在线控制器基于实时服务上下文选择最优配置 3. 集成 nvCOMP（NVIDIA 高性能压缩库）
创新点: service-aware 而非纯压缩率导向；考虑端到端延迟收益
与现有系统关系: 可与 vLLM PagedAttention / Continuum / InferCept 组合使用
建议分类: llm-inference kv-cache disaggregated-serving arxiv compression

AsymCache — 位置感知、Latency 感知的 KV Cache 管理

来源: arXiv 2606.02964v1 · "Multi-Segment Attention: Enabling Efficient KV-Cache Management"
AsymCache 核心设计:
GPU attention kernel 性能随 KV cache 位置非线性变化
提出 expected-latency-aware eviction policy，显式对齐 KV cache 留存决策与 GPU 访问模式
三组件：position-aware block管理 + latency model + online eviction controller
可与 Continuum（agent 场景 KV cache 管理）叠加: AsymCache 在 block 级别提供额外性能收益
建议分类: llm-inference kv-cache gpu-optimization arxiv latency

六、Substack 研究洞察 — The AI Engineer（vLLM vs Ollama vs SGLang vs TensorRT-LLM）

来源: The AI Engineer Substack · "vLLM vs Ollama vs SGLang vs TensorRT-LLM" - URL: https://theaiengineer.substack.com/p/vllm-vs-ollama-vs-sglang-vs-tensorrt - 可信度: ⭐⭐⭐⭐ | 内容类型: 工程师横向对比，有真实 benchmark 数据 - 核心观点: - TGI 官方进入维护模式，vLLM/SGLang/llama.cpp 正式接管开源推理引擎生态 - Ollama 定位清晰：本地 5 分钟上手，单用户原型，不适合生产高并发 - 决策流程图（decision flowchart）实用：按"是否需要换模型 / 是否前缀密集 / 是否需要极致吞吐"三维度选择 - 引用来源质量: 引用了 Kwon et al. PagedAttention (SOSP 2023)、Zheng et al. SGLang (2024)、vLLM GitHub 等一手文献 - 后续建议: 可作为内部"推理引擎选型决策树"的信息来源，不直接复制 - 建议分类: llm-inference vllm sglang tensorrt-llm substack decision-guide

本次覆盖总结

主题	高价值条目	可信度	建议行动
GitHub Trending	`addyosmani/agent-skills`	⭐⭐⭐⭐⭐	分析技能格式，推进内部标准化
KV Cache	LMCache + KVServe + AsymCache	⭐⭐⭐⭐	追踪 NVIDIA Dynamo 1.0 + LMCache 集成落地
推理引擎	SGLang v0.4.3 ≈ LMDeploy (16.2k tok/s)	⭐⭐⭐⭐⭐	规划 TGI → vLLM/SGLang 迁移路径
AI Agent 框架	LangGraph 领跑，CrewAI/AutoGen/SK 梯队	⭐⭐⭐⭐	生产选型参考 Alice Labs 评分
向量数据库	Qdrant v1.13 / pgvector 50M 向量边界 / Milvus 亿级	⭐⭐⭐⭐	按团队规模和数据量对照决策树选型
Substack	The AI Engineer 推理引擎横向对比	⭐⭐⭐⭐	用于内部分享和决策树参考

建议写入路径: /shared/research-kb/review/ （待同步任务处理） 本文件路径: /shared/research-kb/inbox/jay/2026-06-13-1700-github-trending-agentic-inference-vector-substack.md 是否需精读: ✅ KVServe + AsymCache 原文（arXiv）；✅ agent-skills repo 结构分析 是否需审稿: ⚠️ Substack 内容仅作参考，不做原文引用