知识库草稿 · Jay · 2026-06-26 下午

主题

MLsys 2026 Llama 推理生产部署 · Red Hat 分布式推理工程指南 · OWASP AI Agents Top 10 · AI Engineer Substack 2026 Agent Stack · HF Daily Papers Jun 2/10

一、MLsys 2026 Oral：Meta Llama 推理百万级配置优化

Meta "Optimizing Deployment Configurations for LLM Inference"（MLsys 2026 Oral）

来源：https://mlsys.org/virtual/2026/oral/3780（arXiv: https://arxiv.org/abs/2601.20408）
作者：Meta AI（Llama 家族，服务近 10 亿月活用户）
可信度：⭐⭐⭐⭐⭐（Oral 论文 + Meta 生产级第一手数据）
核心贡献：分析数百万种 Llama 推理部署配置，识别满足延迟 SLO 下最大化吞吐量的配置方案
工程要点：
设计空间：H100/H200/MI300X 多硬件 × 张量/流水线/专家/上下文/数据并行 × continuous batching vs prefill-decode disaggregation
并行策略的相位特异性：tensor parallelism 在 prefill 阶段收益高，但 decode 阶段受 KV cache 限制；pipeline parallelism 在长序列时气泡问题加剧
MoE 架构的调度影响：专家并行使单请求跨多 GPU，导致 all-to-all 通信成为瓶颈，与标准批处理假设冲突
硬件异构性机会：H100 vs H200 在相同功耗下性能曲线不同；异构集群（部分 H100 + 部分 H200）的调度策略需要重新评估，不能简单平均分配
平台扩展行为：单节点 → 多节点扩展时，带宽和通信开销非线性增长；超过某个节点数后，扩展收益急剧下降
SLO 驱动的配置选择：延迟敏感型（聊天）→ continuous batching + 较小 batch size；吞吐敏感型（批量处理）→ 更大 batch size + 较长队列
教训总结（Meta 运营经验）：
Prefill-decode disaggregation 是应对长上下文延迟抖动的有效手段，但运维复杂度显著提升
动态路由（根据 workload 特征自动选择并行策略）比静态配置有更大收益空间
监控需要覆盖每个阶段的 latency percentiles，而不仅是端到端延迟
后续行动：提炼为推理引擎选型参考；对比 SGLang RadixAttention vs vLLM PagedAttention 在 prefill-decode 场景的实际取舍

二、Red Hat Developer：分布式 AI 推理高级部署模式（2026-06-24）

"Optimizing distributed AI inference: Advanced deployment patterns"

来源：https://developers.redhat.com/articles/2026/06/24/optimizing-distributed-ai-inference-advanced-deployment-patterns
可信度：⭐⭐⭐⭐（Red Hat 官方工程博客，有具体数值和架构图）
适用场景：已在生产部署基础，希望深入优化延迟/吞吐的工程团队
核心内容：

1. Prefill/Decode Disaggregation（分离部署） - 原理：将 LLM 推理的 prefill（输入处理）和 decode（逐 token 生成）阶段部署在不同节点 - 背景：两阶段 GPU 计算特征迥异——prefill 是计算密集型（矩阵乘法），decode 是访存密集型（逐 token 生成 + KV cache 访问） - 比例经验值：chat 场景下 prefill:decode worker 配比为 1:3 ~ 1:5（这个比例在不同模型和量化下相当稳定） - 适用条件：长上下文、高并发、低延迟 SLO；不适用场景：短 query、batch 推理

2. KV Cache 策略 - 分层 KV Cache：GPU HBM（热）→ CPU DRAM（温）→ NVMe SSD（冷） - 驱逐策略：按访问频率（LFU）vs 按时间（LRU）在不同负载下表现差异大；高并发下 LFU 更稳定 - Prefill 阶段 KV cache 生成速率远高于 decode 阶段，需要专门的分层存储设计

3. Speculative Decoding（投机解码） - 小模型（draft model）预测多个 token，大模型（verifier）并行验证 - 收益取决于 draft model accuracy 和 decode 阶段的并行度 - Red Hat 指出：投机解码的收益在连续 batching 场景下会降低（因为大模型验证可以批处理），需要在具体 workload 下实测

后续行动：作为推理架构设计参考；提炼为团队内部分享的"分布式推理三件套"概念

三、OWASP Top 10 for AI Agents 2026 Cheat Sheet（Alex Ewengelof）

"OWASP Top 10 Agents & AI Vulnerabilities (2026 Cheat Sheet)"

来源：https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents
作者：Alex Ewengelof（AI 安全专家）
可信度：⭐⭐⭐⭐（OWASP 官方标准 + 实战工程示例）
内容结构：OWASP Top 10 LLM（LLM01-10）+ OWASP Top 10 Agents（ASI01-10）完整对照，含示例和缓解建议
核心工程要点：

关键概念澄清：Agent = LLM + while loop + API 访问 - Agent 的核心风险来自"循环执行 + 工具访问 + 降低监督"的组合

两条主线的风险差异： - LLM 漏洞：prompt injection、数据泄露、训练数据投毒、过度依赖模型输出 - Agent 漏洞（ASI）：工具权限泛化、无意资产暴露、循环中的累积风险、agent-to-agent 信任问题

"Semantic Firewall"概念（缓解措施）： - 用隔离的、高度约束的 secondary model 对 agent 的输入/输出进行安全评估 - 适合在 agent 的每一次 tool call 前执行

最小权限原则（Pragmatic）： - 每个工具只授予完成当前任务所需的最小权限集 - Agent 的 tool call 历史需要完整审计日志 - LLM 从不直接访问 API/DB，而是通过受控的 CLI abstraction layer

后续行动：与 NSA/CSA MCP 安全指南交叉引用；作为 agent 项目安全 checklist 的补充

四、The AI Engineer Substack：AI Agents Stack 2026 Edition

"The AI Agents Stack: LLM to Production (2026)"

来源：https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
作者：The AI Engineer（AI 工程垂直 newsletter，专注 AI 系统工程实践）
可信度：⭐⭐⭐⭐（工程垂直 newsletter，有具体 case study）
背景：Letta 在 2024-11 月发布的 AI agents stack 图成为行业默认参考；2026 年 stack 已演进出 6 层，其中至少 3 层在原版中不存在
核心内容：

2026 AI Agent Stack 六层架构： 1. Foundation Model（LLM provider/API） 2. Agentic Framework（LangGraph / AutoGen / CrewAI 等） 3. Memory/State（session 管理、长期记忆、外部存储） 4. Tooling/RAG（外部数据访问、API 集成、RAG pipeline） 5. Execution/Harness（沙箱、权限控制、OS-level enforcement） 6. Observability（trace、eval、monitoring）

2025 → 2026 关键演进： - 新增 Execution/Harness 层：专门解决"LLM 输出 → 实际执行"的安全和可靠性问题；代表工作包括 RE-Box、Modal 的 execution harness、AWS Bedrock Agent guardrails - 新增 Observability 层：从"有日志"演进到"专门针对 agent 的 tracing"；LangSmith、Agenta、Braintrust 等平台专门推出 agent tracing 功能 - Memory 层从"简单 KV store"演进到"结构化 session 管理 + 向量检索 + 外部 DB 集成"

工程团队的实际困境（文章引用社区反馈）： - "入职三周后发现系统里有 14 个 node、custom Redis checkpointer、tool call retry logic，每个都是必要但无人完全理解" - 说明 agent 系统复杂度的管理本身已成为一个工程问题

后续行动：可用于团队内 agent 架构设计讨论；与 awesome-harness-engineering（昨日已收录）交叉参考

五、HF Daily Papers 精选（2026-06-02 & 2026-06-10 更新）

注：HF Daily Papers 页面内容每日动态更新；以下为本次检索时看到的最新条目，标注日期为 HF 页面显示的论文发布日期

2026-06-02 条目

PaddlePaddle 发布新模型/工具（HF org: PaddlePaddle） - 来源：https://huggingface.co/papers（2026-06-02） - 可信度：⭐⭐⭐（百度飞桨官方） - 内容：飞桨团队在 HF 发布新模型或对齐相关工作 - 后续行动：需核验具体型号和 benchmark 数据；低优先级

2026-06-10 条目

JD.com Open Source 发布新模型（HF org: jdopensource） - 来源：https://huggingface.co/papers（2026-06-10） - 可信度：⭐⭐⭐（京东官方） - 内容：京东开源团队在 HF 发布新模型 - 后续行动：需核验具体型号；中优先级

Microsoft 发布新模型/工具（HF org: microsoft） - 来源：https://huggingface.co/papers（2026-06-12） - 可信度：⭐⭐⭐⭐（微软官方） - 内容：微软在 HF 发布新模型（结合 awesome-ai-agents-2026 中提到的 Microsoft Build 2026 发布内容：MAI-Thinking-1、MAI-Code-1-Flash、Microsoft Scout） - 后续行动：值得关注；结合 awesome-ai-agents-2026 追踪 Microsoft Agent 工具链更新

六、本次未入选条目（决策理由）

条目	来源	丢弃原因
NVIDIA Dynamo 优化推理	Red Hat 文章（部分提及）	已在上日文件中覆盖；数值细节未超过 Red Hat 本文
Hugging Face State of OS Spring 2026	HF Blog	季度报告型内容，工程细节有限
ByteByteGo Top AI GitHub Repos	Substack	每周列表型内容；今日已有 1050 engineering filter 覆盖
North Mini Code（Cohere）	HF Blog	开发工具型内容；与 agent 架构相关性一般
Intel XPU Kernel Skill	HF Blog	特定硬件优化；国产场景参考价值有限

七、分类标签

LLM部署 推理优化 Prefill-Decode分离 KVCache SpeculativeDecoding 安全 OWASP AgentStack MLsys2026 RedHat HF-DailyPapers

八、建议写入路径

/shared/research-kb/inbox/jay/2026-06-26-1335-afternoon-research-new-entries-substack-hf-arxiv.md

九、后续行动建议

优先级	行动	理由
🔴 高	MLsys 2026 paper 核心配置决策逻辑提炼为团队推理选型参考文档	Meta 第一手生产数据，极具工程参考价值
🔴 高	OWASP ASI Top 10 + NSA/CSA MCP 安全指南 → 合并为 agent 安全 checklist	已有多个来源积累，可合并输出
🟡 中	Red Hat 分布式推理三件套 → 提炼为内部分享材料	prefill/decode 分离是 2026 年主流方向
🟡 中	HF Daily Papers 中 Microsoft/JD 内容追踪	Microsoft Build 2026 产品链值得持续关注
🟢 低	The AI Engineer 2026 Stack 六层图谱 → 与 awesome-harness-engineering 合并为 agent 架构索引	列表型资源，不急于深度整合

Jay · 2026-06-26 13:35 · 本次未执行 git commit / git push / gh pr