← 笔记
Jay 2026-06-26

工程实践筛选 · 2026-06-26 晚间档(Jay 二筛)

筛选时间:2026-06-26 19:50 UTC+8
主题:GitHub Trending · 推理引擎对比 · Kubernetes Agent 部署 · MCP 安全
标签inference-engineering agentic-systems github-trending kubernetes mcp RAG


候选条目(搜索 & 爬取结果)

✅ 保留 A(高质量工程内容,含命令/源码/性能数据)

R1 · SGLang 完整安装与生产部署命令

  • 来源inference.net - SGLang Complete Guide
  • 摘要:含真实 pip/uv 安装命令、Docker 生产部署示例、curl 测试请求、Python SDK 调用;包含 RadixAttention + 连续批处理架构图解。
  • 保留理由:稀缺的真实部署命令,含 pip install uv && uv pip install "sglang[all]"curl 测试和 Docker 示例,可直接复现。
  • 行动建议:精读,补充 SGLang 最新 2026 版与 vLLM 的 API 差异对比。

R2 · vLLM vs SGLang 生产决策框架(2026)

  • 来源DevOpsBeast - vLLM vs SGLang Production 2026
  • 摘要:四问题五决策框架(workload shape / structured output / operational maturity);同硬件同模型下吞吐量差距 10-20%;SGLang 在结构化输出场景已反超。
  • 保留理由:实战决策框架,非泛泛对比;有量化数字;有取舍维度说明。
  • 行动建议:可并入推理引擎选型主题页。

R3 · H100 推理引擎基准(SGLang NSA + TRT-LLM DSA)

  • 来源Spheron - vLLM vs TRT-LLM vs SGLang H100 Benchmarks
  • 摘要:SGLang Native Sparse Attention + TRT-LLM DSA 组合在 Blackwell 上 DeepSeek V3.2 提升 3-5x;MRV2 在 GB200 上较旧版提升 56% throughput;新支持 Qwen3.5 / Kimi-K2.5 / GLM-5 / MiniMax 2.5;Modular MAX 成为第五竞争者。
  • 保留理由:具体性能数字、具体硬件场景、具体模型支持列表;2026 年最新基准。
  • 行动建议:补充精读,注意与 inbox 中现有 2026-06-26-afternoon-csdn-vllm-ascend-quantization-rerank-sglang.md 去重。
  • 来源startupcorners.com digest
  • 摘要:关键 repos — anthropics/skills (+433 stars, Anthropic 官方可复用 Agent Skills 仓库);aws/agent-toolkit-for-aws (AWS 官方 MCP servers + skills + plugins);calesthio/OpenMontage (+3592 stars, 首个开源 Agentic 视频生产系统,12 条 pipeline,52 tools,500+ agent skills)。
  • 保留理由:具体 star 增量和工具数量;Anthropic 官方 Skills 仓库是重要信号;OpenMontage 规模罕见。
  • 行动建议:关注 anthropics/skills 的设计模式;与 inbox 2026-06-24-1735-evening-github-trending-agents-vecdb-arxiv-agentic-rag-substack.md 去重。

R5 · Microsoft Build 2026 BRK222:Kubernetes 上 Agentic AI

  • 来源YouTube - BRK222,讲者 Lachlan Evenson
  • 摘要(时间戳提炼):
  • 00:09:41:AI workload 类型分类(Inference / Training / Agentic)
  • 00:12:36:大规模 AI 调度挑战 → gang scheduling 需求
  • 00:25:29:Azure + AnyScale Runtime 集成架构
  • 00:35:05:AnyScale Workspaces 管理
  • 00:38:19:Azure KARS(secure sandbox + workload identity)
  • 00:47:36:AKS Claw 构建 Agentic workloads
  • 保留理由:Lachlan Evenson 资深工程视角;Kubernetes 调度 agentic workload 的实战痛点;workload identity 安全隔离。
  • 行动建议:与 inbox 中 2026-06-21-evening-briefing-kvcache-inference-substack.md(KubeCon 相关)合并归档;建议审稿后更新 Kubernetes + AI 主题页。

R6 · awesome-ai-agents-2026 综合列表

  • 来源GitHub caramaschiHG/awesome-ai-agents-2026,1.2k stars,340 resources / 20 categories,402 forks
  • 摘要:覆盖 coding agents、IDE-native agents、multi-agent orchestration、protocols (MCP/A2A)、observability & evaluation、local & self-hosted、RAG & knowledge bases、voice agents 等 20 个分类。
  • 保留理由:当前最完整的 2026 Agent 工具全景图;持续更新;分类合理,适合做导航索引。
  • 行动建议:可作为 Agent Stack 2026 主题页的参考文献;与 inbox 2026-06-24-tech-digest.md 去重。

⚠️ 保留 B(有价值但已有重复或缺少直接工程细节)

R7 · EITT Academy AI Agents 2026 完整指南

  • 来源eitt.academy
  • 摘要:5 层 Agent 生产架构、MCP 协议、LangGraph vs CrewAI vs AutoGen 选型、生产评估指标、OWASP Top 10 for LLM、EU AI Act 合规。
  • 保留理由:MCP 协议生态覆盖较全,OWASP LLM 安全维度有价值。
  • 丢弃理由:内容偏向概念层,缺少真实命令/代码/错误日志;已在 inbox 2026-06-17-1620-csdn-vllm-ollama-substack-agents-stack-owasp.md 高度重复。
  • 决策降级为参考索引,不单独建档。

R8 · Enterprise RAG Platforms 2026 Buyer's Guide

  • 来源onyx.app
  • 摘要:三分层市场(turnkey platforms / cloud RAG services / DIY frameworks);Onyx(MIT,40+ connectors,OpenSearch 向量存储,支持本地 vLLM/Ollama)。
  • 丢弃理由:产品导向为主,缺少命令和复现步骤;与 inbox 2026-06-22-1950-evening-engineering-filter-round7-vllm-multimodal-agentstack-inferencegpu.md 内容重叠。
  • 决策丢弃,纳入 RAG 选型参考文献备注。

R9 · YouTube - vLLM vs SGLang vs TGI 三引擎对比

  • 来源Uplatz YouTube
  • 丢弃理由:视频形式,无法提取可引用工程数据;同主题已有 R2 覆盖。

本次高价值条目摘要

# 标题 核心价值 命令/数据 可复现
R1 SGLang Complete Guide 真实安装+部署命令
R2 vLLM vs SGLang 生产决策 四问题选型框架 量化数字 ⚠️
R3 H100 推理基准 2026 3-5x NSA 加速,56% MRV2 提升 ⚠️
R4 GitHub Trending Jun-24 anthropics/skills / OpenMontage star 数字
R5 BRK222 Kubernetes Agentic gang scheduling / KARS / AKS Claw 时间戳架构 ⚠️
R6 awesome-ai-agents-2026 20 类 340 资源全景 分类索引

建议写入路径

草稿文件/shared/research-kb/inbox/jay/2026-06-26-evening-engineering-filter.md
(已写入本文件)

去重检查(与 inbox 已有文件重叠): - R3 ↔ 2026-06-26-afternoon-csdn-vllm-ascend-quantization-rerank-sglang.md → 建议合并 - R4 ↔ 2026-06-24-1735-evening-github-trending-agents-vecdb-arxiv-agentic-rag-substack.md → 建议合并 - R7 ↔ 2026-06-17-1620-csdn-vllm-ollama-substack-agents-stack-owasp.md → 丢弃 R7 - R8 ↔ 2026-06-22-1950-evening-engineering-filter-round7-vllm-multimodal-agentstack-inferencegpu.md → 丢弃 R8

主题页更新建议: - 推理引擎选型 2026:R1 + R2 + R3 - Kubernetes AI 工作负载:R5 - Agent 工具生态 2026:R4 + R6

精读优先级:R1 > R3 > R2 > R5