研究知识库草稿 · 2026-06-17 傍晚 (Jay)

主题: Agent Harness 工程 · llm-d CNCF Sandbox · SGLang Omni 多模态 RFC · MCP 生产缺口 · HF Spring 2026

检索范围: GitHub Trending / CNCF Sandbox · SGLang GitHub Issues & RFC · Hugging Face Blog/Spring 2026 · Substack AI Engineering · awesome-harness-engineering · arXiv

🔴 高价值条目（保留）

1. llm-d 正式进入 CNCF Sandbox（2026-06 重大事件）

来源: GitHub CNCF Sandbox · llm-d | llm-d 官方

可信度: 高 — CNCF 官方流程，Red Hat / Google Cloud / IBM Research / CoreWeave / NVIDIA 联合发起

摘要: llm-d 是一个基于 vLLM + Kubernetes 的高性能分布式推理编排栈，定位是"在模型服务器之上提供编排和优化层"。2026-06 正式进入 CNCF Sandbox 阶段，是当前 Kubernetes 推理领域最被看好的开源基础设施项目。

核心能力： - 智能推理调度: 非简单轮询，根据请求特性（输入长度、输出长度、prefix cache 命中率）动态分配 GPU - 前缀缓存感知路由: prefix hash aware、session aware 路由，减少重复计算 - Prefill/Decode 分离: 支持 P/D disaggregation，GPU 资源按阶段解耦 - 分层 KV Offloading: GPU → CPU → Storage 多级卸载策略 - 多 accelerator 支持: NVIDIA / AMD / Intel / Google TPU 异构 - 基于 K8s Gateway API: 与云原生生态深度整合

llm-d v0.7 已发布，主题是"从功能演示到生产加固"：改善文档、CI 覆盖、多 accelerator 镜像质量。

评价: 这是企业级 Kubernetes 推理平台的事实标准方向之一，与 SGLang/vLLM 互补。值得关注其与 Gateway API Inference Extension (GAIE) 的集成路线图。

链接: - CNCF Sandbox Issue: https://github.com/cncf/sandbox/issues/462 - llm-d GitHub: https://github.com/llm-d/llm-d - Quickstart: https://docs.llm-d.org/

后续行动: 建议关注 llm-d 与 SGLang Router 的功能重叠区域，以及它与 Red Hat OpenShift AI 的集成。

2. SGLang Omni 多模态 RFC — 全模态支持架构（2026-06 新设计）

来源: GitHub SGLang Issue #16546

可信度: 高 — SGLang 官方 RFC，设计阶段文档

摘要: SGLang 团队发布了 SGLang-Omni 设计 RFC，目标是为"全模态"模型（如 Gemini、Qwen-Omni）提供原生支持。核心洞察：

架构灵活性优先原则： - 2026 年多模态架构尚未收敛，SGLang 选择"灵活性优先"作为第一设计原则 - 支持 Early End（中间阶段直接终止）和 Cyclic Flow（循环数据流，如 VibeVoice 的扩散头输出反馈给 LLM）

提出的 API 设计： - 采用 pipeline stage 对象模型，而非线性链 - 每个 stage 支持 P2P 连接，允许跳过不需要的中间阶段 - 参考 torchtitan 的命令行 config override 机制，减少参数膨胀

评价: 这是当前开源推理框架中最系统的多模态扩展设计。SGLang 已在 Encode-Prefill-Decode (EPD) Disaggregation with Mooncake 方面有落地经验（2025-12），Omni RFC 是自然延伸。

链接: https://github.com/sgl-project/sglang/issues/16546

后续行动: 关注 RFC 合并时间和 Qwen-Omni 的实际集成案例。

3. SGLang Kubernetes 可复用推理编排 RFC（Red Hat 主导）

来源: GitHub SGLang Discussion #4761

可信度: 高 — Red Hat 工程师（Huamin Chen）发起，vLLM Production Stack 参考

摘要: 目标是创建统一的 K8s 推理编排 API，同时支持 vLLM 和 SGLang，实现： - 基本推理引擎 K8s Deployment 部署 - KV cache 配置暴露（speculative decoding、P/D disaggregation） - 路由算法：GPU metrics aware、weighted round robin、prefix hash aware、session aware - LLM Gateway 能力：semantic cache、prompt guard

关键动向：SGLang 已与 AIBrix 合作，通过 LeaderWorkerSet (LWS) API 集成 SGLang，benchmark 显示 SGLang 8TP 2PP 在 DeepSeek-R1 场景比 vLLM 高 10-20% throughput。

链接: https://github.com/sgl-project/sglang/discussions/4761

后续行动: 关注 Kubernetes LWS API 在 SGLang 的落地进度。

4. awesome-harness-engineering — Agent Harness 调度器理论框架

来源: GitHub · ai-boost/awesome-harness-engineering

可信度: 高 — 系统性综述，引用 70 个开源 LLM agent 项目

摘要: 关键洞察（2026-04 论文级分析）：

调度器模式分类（覆盖 60% 开源 agent 项目）： 1. Agent Loop（最常见）— 简单但可控性差 2. Event-driven — 适合异步场景 3. State-machine — 强一致性保证 4. Graph/flow — 表达力强但复杂度高 5. Hybrid — 组合多种模式

Birgitta Böckeler 的 coding agent harness 心智模型（2026-04）： - feedforward guides（输入控制）+ feedback sensors（输出验证）= 闭环 - 区分计算控制（linters、tests）和推理控制（LLM-as-judge） - 主张 harnessability 应成为架构决策的第一公民标准

MCP 生产缺口（企业级部署 field report，2026-03）： - 缺口 1: 缺少 identity propagation（请求方身份无法传递到工具层） - 缺口 2: 无 adaptive tool budgeting（token 预算自适应机制缺失） - 缺口 3: error semantics 非结构化（错误信息缺乏标准化行动映射） - 缓解方案: JWT-enriched tool calls、per-tool timeout contracts、标准化 error-action mappings

评价: 这篇综述对理解 agent 工程中的"控制系统"设计很有价值。三个 MCP 生产缺口直接指向 2026 年企业 MCP 部署的核心痛点。

链接: https://github.com/ai-boost/awesome-harness-engineering

后续行动: 建议精读 MCP 生产缺口部分，可作为主题页更新的核心素材。

5. Hugging Face Spring 2026 报告 — 2M+ 模型背后的生态结构

来源: Hugging Face Blog · State of Open Source Spring 2026

可信度: 高 — Hugging Face 官方博客

核心数据: - 平台模型总数突破 200 万 - 极度集中: 0.01%（top 200 模型）占全部下载量的 49.6% - 约 50% 模型累计下载量 < 200 次 - LeRobot（开源机器人库）GitHub stars 近 3 倍增长 - Pollen Robotics 收购：HF 正式进入开源机器人硬件+软件全栈

子生态现象: - 小众社区（特定语言、领域、特定问题）在低下载量下仍保持高复用率 - "开放生态是重叠子生态的集合，而非单一均匀市场"

Mellotron 2（JetBrains, 12B MoE） — HF Blog 专题（2026-06）： - 12B MoE，JetBrains 自研，仅 3B active parameters - 定位：IDE 编程辅助，与 GitHub Copilot 竞争 - 提到 SGLang、vLLM 作为推荐推理后端

HF CLI as Agent — HF Blog（2026-06）： - HF CLI 重新设计为 agent 优化的 Hub 交互工具 - 代表 HF 生态向 agent-first 工具链方向演进

链接: https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

后续行动: 可纳入 HF 模型生态主题页，特别关注 LeRobot 机器人方向。

来源: arXiv · MiniMaxAIMiniMax | [GitHub 293 stars]

可信度: 高 — MiniMax 官方发布，有代码

摘要: 通过 blockwise sparsity（块稀疏）和优化的 GPU 执行，实现超长上下文的高效处理，在保持性能的同时显著提速。

评价: MiniMax 是本实例模型提供商，该注意力机制创新值得持续关注其开源进度和 vLLM/SGLang 集成。

链接: arXiv 链接需进一步检索（原文未获取）

📋 分类标签

llm-d kubernetes cncf sglang vllm inference multimodal harness-engineering mcp hugging-face agent moe production

📁 建议写入路径

主草稿: /shared/research-kb/inbox/jay/2026-06-17-1735-evening-harness-llm-d-substack-mcp-sglang-omni.md
关联已有: 2026-06-17-1450-engineering-filter-vllm-sglang-kernel-oom.md（vLLM/SGLang benchmark 数据已覆盖，本条侧重新架构）
关联已有: 2026-06-17-1510-afternoon-briefing-database-backend-cloudnative-inference.md（llm-d CNCF 动态未覆盖）

✅ 本次操作

本次写入主草稿: 2026-06-17-1735-evening-harness-llm-d-substack-mcp-sglang-omni.md
去重检查: 相比 2026-06-17 14:50 的 vLLM/SGLang kernel/OOM 草稿，本条聚焦 llm-d CNCF、SGLang Omni RFC、harness engineering、MCP 生产缺口等新条目，无重复

🔍 后续建议

优先级	行动	原因
高	精读 awesome-harness-engineering MCP 缺口章节	企业 MCP 部署核心痛点
高	跟踪 llm-d v0.7 生产部署案例	CNCF Sandbox 里程碑
中	关注 SGLang Omni RFC 合并时间	多模态架构演进
中	关注 HF Spring 2026 LeRobot 机器人方向	HF 新增长点
低	MiniMax Sparse Attention 开源进展	本实例相关