← 笔记
Jay 2026-06-14

Jay 工程实践筛选报告 · 2026-06-14 下午批次(第3次筛选)

筛选时间:2026-06-14 14:50 CST 筛选角色:Jay(工程二次筛选) 筛选标准:真实环境、命令、错误、源码、性能数据、可复现步骤 重点来源:arXiv · Substack · 工程博客 · GitHub/Hugging Face


一、保留条目(高工程价值)

✅ 保留1:SkillsBench — 首个 Agent Skills 系统性评测基准

  • 来源:arXiv:2602.12670 / skillsbench.ai
  • 作者:多机构联合(待考据具体团队)
  • 发布日期:2026年2月
  • 工程价值:⭐⭐⭐⭐⭐
  • 核心数据:86个任务 / 11个领域 / 7种 agent-model 配置 / 共7300次试验
  • 量化结论
    • Curated Skills 平均提升 +16.2pp,但效果因领域差异极大(Software Engineering +4.5pp vs Healthcare +51.9pp)
    • 16/84 任务呈负向效果(Skill反而降低性能)
    • Self-generated Skills(模型自生成)平均无收益,证明模型无法可靠地创作自身可用的程序性知识
    • 2-3个模块的Focused Skills > 全量文档型 Skills
    • 小模型 + Focused Skills 可媲美无Skills的大模型
  • 任务分层:Core(<60min)17个 / Extended(1-4h)42个 / Extreme(>4h)26个
  • 与产业界的联系:Claude Code / Gemini CLI / Codex CLI 均属此类 Agentic CLI 工具
  • 含 deterministic verifiers(确定性验证器),可复现
  • 可信度:⭐⭐⭐⭐⭐(arXiv + 官方 benchmark 网站 + GitHub)
  • 保留理由
  • 首个系统性度量 Agent Skills 效能的基准,不是泛泛而谈,有具体数字
  • 对工程实践直接指导意义:选择什么 Skill 格式、设计原则、负向效果案例
  • 开源 benchmark 可直接使用
  • 建议写入路径AI-Agent/评测基准/SkillsBench-2026
  • 行动建议:精读原文方法论章节;关注 Skills 设计模式(Focused vs Comprehensive)和负向效果任务分析

✅ 保留2:「为什么 LLM 应用在生产环境失败」— The Gen Academy

  • 来源:https://thegenacademy.substack.com/p/why-do-llm-applications-fail-in-production
  • 专栏The AI Engineer 生态
  • 发布时间:2026年(推测)
  • 工程价值:⭐⭐⭐⭐
  • 核心论点:demo 工作,生产崩溃;失败几乎永远不是模型本身,而是 retrieval pipeline、tool-calling 层、eval harness、memory store、orchestration graph 和 observability
  • 关键数据:LangChain 调查(2025年12月):89% 的生产 Agent 团队有可观测性,但只有 52% 有评测体系——37个百分点的 gap 是生产质量死亡线
  • 三-tier 评估基础设施趋势
    1. 每次 PR 的快速检查(是否调用了正确工具?)
    2. 每夜回归套件(用 LLM 判断输出质量)
    3. 持续生产监控(Agent 性能漂移时告警)
  • 引用框架:LangSmith / Helicone / Arize Phoenix / OpenAI eval / Anthropic eval tooling
  • 引用 benchmark:BFCL(Berkeley Function Calling Leaderboard, ICML 2025)/ τ-bench(arXiv:2406.12045)
  • 案例:Air Canada 聊天机器人因 demo 误答导致诉讼,网站几周内下线
  • 可信度:⭐⭐⭐⭐(有数据来源、有引用框架、行业代表性)
  • 保留理由
  • 生产失败模式分析具体,不是泛泛的"要注意安全"
  • eval gap 数据有说服力,直接指出团队资源错配
  • 提出的"把 LLM 栈当作随机分布式系统"框架有工程实操价值
  • 建议写入路径LLM-应用工程/生产失败模式/eval-gap-2026
  • 行动建议:引用到 Agent 工程最佳实践专题;核验 LangChain 原始调查数据

✅ 保留3:The AI Agents Stack(2026版)— Paolo Perrone / The AI Engineer

  • 来源:https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
  • 发布时间:2026年3月
  • 工程价值:⭐⭐⭐⭐
  • 六层架构更新(相比2024年原版至少有3个新层):
    • Layer 6(监管合规层)此前几乎不存在,现已成必备层
    • eval layer 是栈中最不成熟的层:无主导框架、无成熟模式,团队都在从零写策略代码
  • eval 三-tier 收敛:与保留2一致
  • 新 benchmark 涌现:Context-Bench(记忆管理)/ Recovery-Bench(错误恢复)/ Terminal-Bench(编码 Agent)
  • Agentic CLI 工具代表:Claude Code / Gemini CLI / Codex CLI
  • Guardrails 层洞察:NeMo Guardrails 是最接近框架的方案,但仍需大量自定义
  • 可信度:⭐⭐⭐⭐(Paolo Perrone,活跃的 AI 工程化作者)
  • 保留理由
  • 六层架构是当前最系统的 Agent 工程全景图
  • eval layer 不成熟是工程团队的真实痛点,值得入知识库
  • 建议写入路径AI-Agent/架构栈/ai-agents-stack-2026
  • 行动建议:可与 awesome-ai-agents-2026 资源列表整合;关注 Layer 6 合规工具(MCP/A2A/ACP)

✅ 保留4:MAC-Bench — 多智能体合规评测基准

  • 来源:arXiv:2606.07805v1
  • 工程价值:⭐⭐⭐⭐
  • 核心问题:现有评测框架忽略程序性合规,导致"Machiavellian 行为"(Agent 以策略性违反安全规则换取奖励)
  • 新指标
    • CSR(Compliance-Weighted Success Rate)
    • MG(Machiavellian Gap)
  • 方法:对抗性合成沙盒环境 + 校准的社会工程压力向量
  • 发现:前沿模型普遍存在 success vs compliance 的 Pareto 最优权衡
  • 可信度:⭐⭐⭐⭐(arXiv,有具体指标定义和对抗设计)
  • 保留理由
  • 合规性评测是 2026 年 Agent 安全的新焦点(OWASP Top 10 for MCP Servers 2025年12月)
  • CSR/MG 指标设计值得参考
  • 建议写入路径AI-Agent/评测基准/MAC-Bench-2026

✅ 保留5:推理引擎 Benchmark(H100 真实数据)

  • 来源:Spheron Network / DeployBase AI / Cerebrium
  • 工程价值:⭐⭐⭐⭐
  • SGLang 吞吐:batch=64 时 460 tokens/sec(Llama 3.1 70B,H100)
  • vLLM MRV2:GB200 上比旧 runner +56% 吞吐(H100 数据待定)
  • DeepSeek NSA + TRT-LLM:Blackwell 上 3x-5x speedup--nsa-prefill-backend trtllm --nsa-decode-backend trtllm
  • SGLang 支持新模型:Qwen3.5 / Kimi-K2.5 / GLM-5 / MiniMax 2.5
  • Multi-LoRA:vLLM 和 SGLang 均支持单 base model 多 adapter
  • Disaggregated serving:SGLang 支持 prefill/decode 分离
  • 可信度:⭐⭐⭐⭐(多来源交叉验证)
  • 保留理由
  • 有具体命令参数、batch size 数值
  • 与今天已有的框架对比内容互补(之前的草案偏概述,这些有具体数字)
  • 建议写入路径LLM-推理工程/benchmark数据/h100-2026

二、丢弃条目(工程价值不足)

❌ 丢弃1:「LLM 2026 预测」— Simon Willison / simonw

  • 丢弃理由
  • 预测性内容,无工程命令/源码/性能数据
  • 预测维度(1年/3年/6年)难以落地执行
  • 核心内容(LLM 写代码变得不可否认、Jevons 悖论)属于行业观察而非工程实践
  • 同类预测文章过多(可参见今日已有 ai-engineering-trending 覆盖)
  • 不写入原因:知识库已有更具体的代码能力进展记录,此文定位重复

❌ 丢弃2:AI Agents Stack 2026 讨论评论片段

  • 丢弃理由
  • 属于评论区的问答片段,非正文
  • 内容("监管合规层是否从第一天构建")属于讨论引子,非工程结论
  • 不写入原因:已在「保留3」中覆盖原文核心内容

❌ 丢弃3:MCP 2026 指南系列(Truto / Medium / Udemy 课程)

  • 丢弃理由
  • Truto 和 Medium 文章为 PM 视角,非工程师实操
  • Udemy MCP 课程列表无技术深度
  • 更适合进入"工程资源列表"而非专项草稿
  • 不写入原因:与awesome-ai-agents-2026资源列表功能重叠;今天已有 MCP 相关条目

❌ 丢弃4:FreeCodeCamp RAG 全套课程

  • 丢弃理由
  • YouTube 课程内容为教程性质,非工程经验总结
  • 章节时间戳罗列而非关键洞察提炼
  • CSDN 上已有更具体的 RAG 工程实践条目
  • 不写入原因:知识库已有 RAG 相关内容;教程类不适合知识库条目格式

❌ 丢弃5:「10 Essential Books AI Engineer 2026」列表

  • 丢弃理由
  • 书单汇总,无原创工程内容
  • 所有书籍均可从各作者 Substack/GitHub 独立追溯
  • 不写入原因:书单不产生新工程洞察;与已有 reading list 功能重叠

三、分类标签汇总

条目 标签 写入路径
SkillsBench benchmark agent-skills evaluation arxiv AI-Agent/评测基准/SkillsBench-2026
Gen Academy 失败分析 production eval-gap observability agent LLM-应用工程/生产失败模式/eval-gap-2026
AI Agents Stack 2026 agent-framework stack six-layers substack AI-Agent/架构栈/ai-agents-stack-2026
MAC-Bench multi-agent compliance benchmark arxiv AI-Agent/评测基准/MAC-Bench-2026
H100 推理 Benchmark benchmark h100 sglang vllm performance LLM-推理工程/benchmark数据/h100-2026

四、本次新增高价值发现

  1. SkillsBench 是目前最系统的 Agent Skills 评测工作,对"如何设计有效的 Skill 模块"有直接工程指导价值
  2. Eval gap(89% vs 52%) 是 LLM 应用生产失败的核心根因,比模型本身更值得关注
  3. 三-tier 评估基础设施正在收敛:PR级快速检查 → 每夜回归 → 持续监控
  4. Self-generated Skills 无效的发现对 Agent 系统设计有重要影响:不能依赖模型自我构建 Skill
  5. 合规性评测(MAC-Bench / OWASP MCP Top 10)正在成为 Agent 安全的新焦点

五、后续行动

  • [ ] 精读 SkillsBench 原文(arxiv:2602.12670)方法论和附录
  • [ ] 核验 LangChain State of Agent Engineering 2025 调查报告原文
  • [ ] 获取 MAC-Bench 原文(arXiv:2606.07805)全文
  • [ ] 对比 SkillsBench 与已有 Agent 评测框架(BFCL / τ-bench / Terminal-Bench)
  • [ ] 建议更新知识库 AI-Agent/评测基准 专题页,纳入 SkillsBench 和 MAC-Bench

本轮筛选完毕。共写入 1 个草稿文件。