工程实践筛选 · 2026-06-26 晚间档(Jay 二筛)
筛选时间:2026-06-26 19:50 UTC+8
主题:GitHub Trending · 推理引擎对比 · Kubernetes Agent 部署 · MCP 安全
标签:inference-engineering agentic-systems github-trending kubernetes mcp RAG
候选条目(搜索 & 爬取结果)
✅ 保留 A(高质量工程内容,含命令/源码/性能数据)
R1 · SGLang 完整安装与生产部署命令
- 来源:inference.net - SGLang Complete Guide
- 摘要:含真实 pip/uv 安装命令、Docker 生产部署示例、curl 测试请求、Python SDK 调用;包含 RadixAttention + 连续批处理架构图解。
- 保留理由:稀缺的真实部署命令,含
pip install uv && uv pip install "sglang[all]"、curl测试和 Docker 示例,可直接复现。 - 行动建议:精读,补充 SGLang 最新 2026 版与 vLLM 的 API 差异对比。
R2 · vLLM vs SGLang 生产决策框架(2026)
- 来源:DevOpsBeast - vLLM vs SGLang Production 2026
- 摘要:四问题五决策框架(workload shape / structured output / operational maturity);同硬件同模型下吞吐量差距 10-20%;SGLang 在结构化输出场景已反超。
- 保留理由:实战决策框架,非泛泛对比;有量化数字;有取舍维度说明。
- 行动建议:可并入推理引擎选型主题页。
R3 · H100 推理引擎基准(SGLang NSA + TRT-LLM DSA)
- 来源:Spheron - vLLM vs TRT-LLM vs SGLang H100 Benchmarks
- 摘要:SGLang Native Sparse Attention + TRT-LLM DSA 组合在 Blackwell 上 DeepSeek V3.2 提升 3-5x;MRV2 在 GB200 上较旧版提升 56% throughput;新支持 Qwen3.5 / Kimi-K2.5 / GLM-5 / MiniMax 2.5;Modular MAX 成为第五竞争者。
- 保留理由:具体性能数字、具体硬件场景、具体模型支持列表;2026 年最新基准。
- 行动建议:补充精读,注意与 inbox 中现有
2026-06-26-afternoon-csdn-vllm-ascend-quantization-rerank-sglang.md去重。
R4 · GitHub Trending 2026-06-24 Agent 工具生态
- 来源:startupcorners.com digest
- 摘要:关键 repos —
anthropics/skills(+433 stars, Anthropic 官方可复用 Agent Skills 仓库);aws/agent-toolkit-for-aws(AWS 官方 MCP servers + skills + plugins);calesthio/OpenMontage(+3592 stars, 首个开源 Agentic 视频生产系统,12 条 pipeline,52 tools,500+ agent skills)。 - 保留理由:具体 star 增量和工具数量;Anthropic 官方 Skills 仓库是重要信号;OpenMontage 规模罕见。
- 行动建议:关注 anthropics/skills 的设计模式;与 inbox
2026-06-24-1735-evening-github-trending-agents-vecdb-arxiv-agentic-rag-substack.md去重。
R5 · Microsoft Build 2026 BRK222:Kubernetes 上 Agentic AI
- 来源:YouTube - BRK222,讲者 Lachlan Evenson
- 摘要(时间戳提炼):
- 00:09:41:AI workload 类型分类(Inference / Training / Agentic)
- 00:12:36:大规模 AI 调度挑战 → gang scheduling 需求
- 00:25:29:Azure + AnyScale Runtime 集成架构
- 00:35:05:AnyScale Workspaces 管理
- 00:38:19:Azure KARS(secure sandbox + workload identity)
- 00:47:36:AKS Claw 构建 Agentic workloads
- 保留理由:Lachlan Evenson 资深工程视角;Kubernetes 调度 agentic workload 的实战痛点;workload identity 安全隔离。
- 行动建议:与 inbox 中
2026-06-21-evening-briefing-kvcache-inference-substack.md(KubeCon 相关)合并归档;建议审稿后更新 Kubernetes + AI 主题页。
R6 · awesome-ai-agents-2026 综合列表
- 来源:GitHub caramaschiHG/awesome-ai-agents-2026,1.2k stars,340 resources / 20 categories,402 forks
- 摘要:覆盖 coding agents、IDE-native agents、multi-agent orchestration、protocols (MCP/A2A)、observability & evaluation、local & self-hosted、RAG & knowledge bases、voice agents 等 20 个分类。
- 保留理由:当前最完整的 2026 Agent 工具全景图;持续更新;分类合理,适合做导航索引。
- 行动建议:可作为 Agent Stack 2026 主题页的参考文献;与 inbox
2026-06-24-tech-digest.md去重。
⚠️ 保留 B(有价值但已有重复或缺少直接工程细节)
R7 · EITT Academy AI Agents 2026 完整指南
- 来源:eitt.academy
- 摘要:5 层 Agent 生产架构、MCP 协议、LangGraph vs CrewAI vs AutoGen 选型、生产评估指标、OWASP Top 10 for LLM、EU AI Act 合规。
- 保留理由:MCP 协议生态覆盖较全,OWASP LLM 安全维度有价值。
- 丢弃理由:内容偏向概念层,缺少真实命令/代码/错误日志;已在 inbox
2026-06-17-1620-csdn-vllm-ollama-substack-agents-stack-owasp.md高度重复。 - 决策:降级为参考索引,不单独建档。
R8 · Enterprise RAG Platforms 2026 Buyer's Guide
- 来源:onyx.app
- 摘要:三分层市场(turnkey platforms / cloud RAG services / DIY frameworks);Onyx(MIT,40+ connectors,OpenSearch 向量存储,支持本地 vLLM/Ollama)。
- 丢弃理由:产品导向为主,缺少命令和复现步骤;与 inbox
2026-06-22-1950-evening-engineering-filter-round7-vllm-multimodal-agentstack-inferencegpu.md内容重叠。 - 决策:丢弃,纳入 RAG 选型参考文献备注。
R9 · YouTube - vLLM vs SGLang vs TGI 三引擎对比
- 来源:Uplatz YouTube
- 丢弃理由:视频形式,无法提取可引用工程数据;同主题已有 R2 覆盖。
本次高价值条目摘要
| # | 标题 | 核心价值 | 命令/数据 | 可复现 |
|---|---|---|---|---|
| R1 | SGLang Complete Guide | 真实安装+部署命令 | ✅ | ✅ |
| R2 | vLLM vs SGLang 生产决策 | 四问题选型框架 | 量化数字 | ⚠️ |
| R3 | H100 推理基准 2026 | 3-5x NSA 加速,56% MRV2 提升 | ✅ | ⚠️ |
| R4 | GitHub Trending Jun-24 | anthropics/skills / OpenMontage | star 数字 | ❌ |
| R5 | BRK222 Kubernetes Agentic | gang scheduling / KARS / AKS Claw | 时间戳架构 | ⚠️ |
| R6 | awesome-ai-agents-2026 | 20 类 340 资源全景 | 分类索引 | ❌ |
建议写入路径
草稿文件:/shared/research-kb/inbox/jay/2026-06-26-evening-engineering-filter.md
(已写入本文件)
去重检查(与 inbox 已有文件重叠):
- R3 ↔ 2026-06-26-afternoon-csdn-vllm-ascend-quantization-rerank-sglang.md → 建议合并
- R4 ↔ 2026-06-24-1735-evening-github-trending-agents-vecdb-arxiv-agentic-rag-substack.md → 建议合并
- R7 ↔ 2026-06-17-1620-csdn-vllm-ollama-substack-agents-stack-owasp.md → 丢弃 R7
- R8 ↔ 2026-06-22-1950-evening-engineering-filter-round7-vllm-multimodal-agentstack-inferencegpu.md → 丢弃 R8
主题页更新建议:
- 推理引擎选型 2026:R1 + R2 + R3
- Kubernetes AI 工作负载:R5
- Agent 工具生态 2026:R4 + R6
精读优先级:R1 > R3 > R2 > R5