知识库草稿 · Jay · 2026-06-26 下午
主题
MLsys 2026 Llama 推理生产部署 · Red Hat 分布式推理工程指南 · OWASP AI Agents Top 10 · AI Engineer Substack 2026 Agent Stack · HF Daily Papers Jun 2/10
一、MLsys 2026 Oral:Meta Llama 推理百万级配置优化
Meta "Optimizing Deployment Configurations for LLM Inference"(MLsys 2026 Oral)
- 来源:https://mlsys.org/virtual/2026/oral/3780(arXiv: https://arxiv.org/abs/2601.20408)
- 作者:Meta AI(Llama 家族,服务近 10 亿月活用户)
- 可信度:⭐⭐⭐⭐⭐(Oral 论文 + Meta 生产级第一手数据)
- 核心贡献:分析数百万种 Llama 推理部署配置,识别满足延迟 SLO 下最大化吞吐量的配置方案
- 工程要点:
- 设计空间:H100/H200/MI300X 多硬件 × 张量/流水线/专家/上下文/数据并行 × continuous batching vs prefill-decode disaggregation
- 并行策略的相位特异性:tensor parallelism 在 prefill 阶段收益高,但 decode 阶段受 KV cache 限制;pipeline parallelism 在长序列时气泡问题加剧
- MoE 架构的调度影响:专家并行使单请求跨多 GPU,导致 all-to-all 通信成为瓶颈,与标准批处理假设冲突
- 硬件异构性机会:H100 vs H200 在相同功耗下性能曲线不同;异构集群(部分 H100 + 部分 H200)的调度策略需要重新评估,不能简单平均分配
- 平台扩展行为:单节点 → 多节点扩展时,带宽和通信开销非线性增长;超过某个节点数后,扩展收益急剧下降
- SLO 驱动的配置选择:延迟敏感型(聊天)→ continuous batching + 较小 batch size;吞吐敏感型(批量处理)→ 更大 batch size + 较长队列
- 教训总结(Meta 运营经验):
- Prefill-decode disaggregation 是应对长上下文延迟抖动的有效手段,但运维复杂度显著提升
- 动态路由(根据 workload 特征自动选择并行策略)比静态配置有更大收益空间
- 监控需要覆盖每个阶段的 latency percentiles,而不仅是端到端延迟
- 后续行动:提炼为推理引擎选型参考;对比 SGLang RadixAttention vs vLLM PagedAttention 在 prefill-decode 场景的实际取舍
二、Red Hat Developer:分布式 AI 推理高级部署模式(2026-06-24)
"Optimizing distributed AI inference: Advanced deployment patterns"
- 来源:https://developers.redhat.com/articles/2026/06/24/optimizing-distributed-ai-inference-advanced-deployment-patterns
- 可信度:⭐⭐⭐⭐(Red Hat 官方工程博客,有具体数值和架构图)
- 适用场景:已在生产部署基础,希望深入优化延迟/吞吐的工程团队
- 核心内容:
1. Prefill/Decode Disaggregation(分离部署) - 原理:将 LLM 推理的 prefill(输入处理)和 decode(逐 token 生成)阶段部署在不同节点 - 背景:两阶段 GPU 计算特征迥异——prefill 是计算密集型(矩阵乘法),decode 是访存密集型(逐 token 生成 + KV cache 访问) - 比例经验值:chat 场景下 prefill:decode worker 配比为 1:3 ~ 1:5(这个比例在不同模型和量化下相当稳定) - 适用条件:长上下文、高并发、低延迟 SLO;不适用场景:短 query、batch 推理
2. KV Cache 策略 - 分层 KV Cache:GPU HBM(热)→ CPU DRAM(温)→ NVMe SSD(冷) - 驱逐策略:按访问频率(LFU)vs 按时间(LRU)在不同负载下表现差异大;高并发下 LFU 更稳定 - Prefill 阶段 KV cache 生成速率远高于 decode 阶段,需要专门的分层存储设计
3. Speculative Decoding(投机解码) - 小模型(draft model)预测多个 token,大模型(verifier)并行验证 - 收益取决于 draft model accuracy 和 decode 阶段的并行度 - Red Hat 指出:投机解码的收益在连续 batching 场景下会降低(因为大模型验证可以批处理),需要在具体 workload 下实测
- 后续行动:作为推理架构设计参考;提炼为团队内部分享的"分布式推理三件套"概念
三、OWASP Top 10 for AI Agents 2026 Cheat Sheet(Alex Ewengelof)
"OWASP Top 10 Agents & AI Vulnerabilities (2026 Cheat Sheet)"
- 来源:https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents
- 作者:Alex Ewengelof(AI 安全专家)
- 可信度:⭐⭐⭐⭐(OWASP 官方标准 + 实战工程示例)
- 内容结构:OWASP Top 10 LLM(LLM01-10)+ OWASP Top 10 Agents(ASI01-10)完整对照,含示例和缓解建议
- 核心工程要点:
关键概念澄清:Agent = LLM + while loop + API 访问 - Agent 的核心风险来自"循环执行 + 工具访问 + 降低监督"的组合
两条主线的风险差异: - LLM 漏洞:prompt injection、数据泄露、训练数据投毒、过度依赖模型输出 - Agent 漏洞(ASI):工具权限泛化、无意资产暴露、循环中的累积风险、agent-to-agent 信任问题
"Semantic Firewall"概念(缓解措施): - 用隔离的、高度约束的 secondary model 对 agent 的输入/输出进行安全评估 - 适合在 agent 的每一次 tool call 前执行
最小权限原则(Pragmatic): - 每个工具只授予完成当前任务所需的最小权限集 - Agent 的 tool call 历史需要完整审计日志 - LLM 从不直接访问 API/DB,而是通过受控的 CLI abstraction layer
- 后续行动:与 NSA/CSA MCP 安全指南交叉引用;作为 agent 项目安全 checklist 的补充
四、The AI Engineer Substack:AI Agents Stack 2026 Edition
"The AI Agents Stack: LLM to Production (2026)"
- 来源:https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
- 作者:The AI Engineer(AI 工程垂直 newsletter,专注 AI 系统工程实践)
- 可信度:⭐⭐⭐⭐(工程垂直 newsletter,有具体 case study)
- 背景:Letta 在 2024-11 月发布的 AI agents stack 图成为行业默认参考;2026 年 stack 已演进出 6 层,其中至少 3 层在原版中不存在
- 核心内容:
2026 AI Agent Stack 六层架构: 1. Foundation Model(LLM provider/API) 2. Agentic Framework(LangGraph / AutoGen / CrewAI 等) 3. Memory/State(session 管理、长期记忆、外部存储) 4. Tooling/RAG(外部数据访问、API 集成、RAG pipeline) 5. Execution/Harness(沙箱、权限控制、OS-level enforcement) 6. Observability(trace、eval、monitoring)
2025 → 2026 关键演进: - 新增 Execution/Harness 层:专门解决"LLM 输出 → 实际执行"的安全和可靠性问题;代表工作包括 RE-Box、Modal 的 execution harness、AWS Bedrock Agent guardrails - 新增 Observability 层:从"有日志"演进到"专门针对 agent 的 tracing";LangSmith、Agenta、Braintrust 等平台专门推出 agent tracing 功能 - Memory 层从"简单 KV store"演进到"结构化 session 管理 + 向量检索 + 外部 DB 集成"
工程团队的实际困境(文章引用社区反馈): - "入职三周后发现系统里有 14 个 node、custom Redis checkpointer、tool call retry logic,每个都是必要但无人完全理解" - 说明 agent 系统复杂度的管理本身已成为一个工程问题
- 后续行动:可用于团队内 agent 架构设计讨论;与 awesome-harness-engineering(昨日已收录)交叉参考
五、HF Daily Papers 精选(2026-06-02 & 2026-06-10 更新)
注:HF Daily Papers 页面内容每日动态更新;以下为本次检索时看到的最新条目,标注日期为 HF 页面显示的论文发布日期
2026-06-02 条目
PaddlePaddle 发布新模型/工具(HF org: PaddlePaddle) - 来源:https://huggingface.co/papers(2026-06-02) - 可信度:⭐⭐⭐(百度飞桨官方) - 内容:飞桨团队在 HF 发布新模型或对齐相关工作 - 后续行动:需核验具体型号和 benchmark 数据;低优先级
2026-06-10 条目
JD.com Open Source 发布新模型(HF org: jdopensource) - 来源:https://huggingface.co/papers(2026-06-10) - 可信度:⭐⭐⭐(京东官方) - 内容:京东开源团队在 HF 发布新模型 - 后续行动:需核验具体型号;中优先级
Microsoft 发布新模型/工具(HF org: microsoft) - 来源:https://huggingface.co/papers(2026-06-12) - 可信度:⭐⭐⭐⭐(微软官方) - 内容:微软在 HF 发布新模型(结合 awesome-ai-agents-2026 中提到的 Microsoft Build 2026 发布内容:MAI-Thinking-1、MAI-Code-1-Flash、Microsoft Scout) - 后续行动:值得关注;结合 awesome-ai-agents-2026 追踪 Microsoft Agent 工具链更新
六、本次未入选条目(决策理由)
| 条目 | 来源 | 丢弃原因 |
|---|---|---|
| NVIDIA Dynamo 优化推理 | Red Hat 文章(部分提及) | 已在上日文件中覆盖;数值细节未超过 Red Hat 本文 |
| Hugging Face State of OS Spring 2026 | HF Blog | 季度报告型内容,工程细节有限 |
| ByteByteGo Top AI GitHub Repos | Substack | 每周列表型内容;今日已有 1050 engineering filter 覆盖 |
| North Mini Code(Cohere) | HF Blog | 开发工具型内容;与 agent 架构相关性一般 |
| Intel XPU Kernel Skill | HF Blog | 特定硬件优化;国产场景参考价值有限 |
七、分类标签
LLM部署 推理优化 Prefill-Decode分离 KVCache SpeculativeDecoding 安全 OWASP AgentStack MLsys2026 RedHat HF-DailyPapers
八、建议写入路径
/shared/research-kb/inbox/jay/2026-06-26-1335-afternoon-research-new-entries-substack-hf-arxiv.md
九、后续行动建议
| 优先级 | 行动 | 理由 |
|---|---|---|
| 🔴 高 | MLsys 2026 paper 核心配置决策逻辑提炼为团队推理选型参考文档 | Meta 第一手生产数据,极具工程参考价值 |
| 🔴 高 | OWASP ASI Top 10 + NSA/CSA MCP 安全指南 → 合并为 agent 安全 checklist | 已有多个来源积累,可合并输出 |
| 🟡 中 | Red Hat 分布式推理三件套 → 提炼为内部分享材料 | prefill/decode 分离是 2026 年主流方向 |
| 🟡 中 | HF Daily Papers 中 Microsoft/JD 内容追踪 | Microsoft Build 2026 产品链值得持续关注 |
| 🟢 低 | The AI Engineer 2026 Stack 六层图谱 → 与 awesome-harness-engineering 合并为 agent 架构索引 | 列表型资源,不急于深度整合 |
Jay · 2026-06-26 13:35 · 本次未执行 git commit / git push / gh pr