Jay 工程实践筛选报告 · 2026-06-14 下午批次（第3次筛选）

筛选时间：2026-06-14 14:50 CST 筛选角色：Jay（工程二次筛选） 筛选标准：真实环境、命令、错误、源码、性能数据、可复现步骤 重点来源：arXiv · Substack · 工程博客 · GitHub/Hugging Face

一、保留条目（高工程价值）

✅ 保留1：SkillsBench — 首个 Agent Skills 系统性评测基准

来源：arXiv:2602.12670 / skillsbench.ai
作者：多机构联合（待考据具体团队）
发布日期：2026年2月
工程价值：⭐⭐⭐⭐⭐
核心数据：86个任务 / 11个领域 / 7种 agent-model 配置 / 共7300次试验
量化结论：
- Curated Skills 平均提升 +16.2pp，但效果因领域差异极大（Software Engineering +4.5pp vs Healthcare +51.9pp）
- 16/84 任务呈负向效果（Skill反而降低性能）
- Self-generated Skills（模型自生成）平均无收益，证明模型无法可靠地创作自身可用的程序性知识
- 2-3个模块的Focused Skills > 全量文档型 Skills
- 小模型 + Focused Skills 可媲美无Skills的大模型
任务分层：Core（<60min）17个 / Extended（1-4h）42个 / Extreme（>4h）26个
与产业界的联系：Claude Code / Gemini CLI / Codex CLI 均属此类 Agentic CLI 工具
含 deterministic verifiers（确定性验证器），可复现
可信度：⭐⭐⭐⭐⭐（arXiv + 官方 benchmark 网站 + GitHub）
保留理由：
首个系统性度量 Agent Skills 效能的基准，不是泛泛而谈，有具体数字
对工程实践直接指导意义：选择什么 Skill 格式、设计原则、负向效果案例
开源 benchmark 可直接使用
建议写入路径：AI-Agent/评测基准/SkillsBench-2026
行动建议：精读原文方法论章节；关注 Skills 设计模式（Focused vs Comprehensive）和负向效果任务分析

✅ 保留2：「为什么 LLM 应用在生产环境失败」— The Gen Academy

来源：https://thegenacademy.substack.com/p/why-do-llm-applications-fail-in-production
专栏：The AI Engineer 生态
发布时间：2026年（推测）
工程价值：⭐⭐⭐⭐
核心论点：demo 工作，生产崩溃；失败几乎永远不是模型本身，而是 retrieval pipeline、tool-calling 层、eval harness、memory store、orchestration graph 和 observability
关键数据：LangChain 调查（2025年12月）：89% 的生产 Agent 团队有可观测性，但只有 52% 有评测体系——37个百分点的 gap 是生产质量死亡线
三-tier 评估基础设施趋势：
1. 每次 PR 的快速检查（是否调用了正确工具？）
2. 每夜回归套件（用 LLM 判断输出质量）
3. 持续生产监控（Agent 性能漂移时告警）
引用框架：LangSmith / Helicone / Arize Phoenix / OpenAI eval / Anthropic eval tooling
引用 benchmark：BFCL（Berkeley Function Calling Leaderboard, ICML 2025）/ τ-bench（arXiv:2406.12045）
案例：Air Canada 聊天机器人因 demo 误答导致诉讼，网站几周内下线
可信度：⭐⭐⭐⭐（有数据来源、有引用框架、行业代表性）
保留理由：
生产失败模式分析具体，不是泛泛的"要注意安全"
eval gap 数据有说服力，直接指出团队资源错配
提出的"把 LLM 栈当作随机分布式系统"框架有工程实操价值
建议写入路径：LLM-应用工程/生产失败模式/eval-gap-2026
行动建议：引用到 Agent 工程最佳实践专题；核验 LangChain 原始调查数据

✅ 保留3：The AI Agents Stack（2026版）— Paolo Perrone / The AI Engineer

来源：https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
发布时间：2026年3月
工程价值：⭐⭐⭐⭐
六层架构更新（相比2024年原版至少有3个新层）：
- Layer 6（监管合规层）此前几乎不存在，现已成必备层
- eval layer 是栈中最不成熟的层：无主导框架、无成熟模式，团队都在从零写策略代码
eval 三-tier 收敛：与保留2一致
新 benchmark 涌现：Context-Bench（记忆管理）/ Recovery-Bench（错误恢复）/ Terminal-Bench（编码 Agent）
Agentic CLI 工具代表：Claude Code / Gemini CLI / Codex CLI
Guardrails 层洞察：NeMo Guardrails 是最接近框架的方案，但仍需大量自定义
可信度：⭐⭐⭐⭐（Paolo Perrone，活跃的 AI 工程化作者）
保留理由：
六层架构是当前最系统的 Agent 工程全景图
eval layer 不成熟是工程团队的真实痛点，值得入知识库
建议写入路径：AI-Agent/架构栈/ai-agents-stack-2026
行动建议：可与 awesome-ai-agents-2026 资源列表整合；关注 Layer 6 合规工具（MCP/A2A/ACP）

✅ 保留4：MAC-Bench — 多智能体合规评测基准

来源：arXiv:2606.07805v1
工程价值：⭐⭐⭐⭐
核心问题：现有评测框架忽略程序性合规，导致"Machiavellian 行为"（Agent 以策略性违反安全规则换取奖励）
新指标：
- CSR（Compliance-Weighted Success Rate）
- MG（Machiavellian Gap）
方法：对抗性合成沙盒环境 + 校准的社会工程压力向量
发现：前沿模型普遍存在 success vs compliance 的 Pareto 最优权衡
可信度：⭐⭐⭐⭐（arXiv，有具体指标定义和对抗设计）
保留理由：
合规性评测是 2026 年 Agent 安全的新焦点（OWASP Top 10 for MCP Servers 2025年12月）
CSR/MG 指标设计值得参考
建议写入路径：AI-Agent/评测基准/MAC-Bench-2026

✅ 保留5：推理引擎 Benchmark（H100 真实数据）

来源：Spheron Network / DeployBase AI / Cerebrium
工程价值：⭐⭐⭐⭐
SGLang 吞吐：batch=64 时 460 tokens/sec（Llama 3.1 70B，H100）
vLLM MRV2：GB200 上比旧 runner +56% 吞吐（H100 数据待定）
DeepSeek NSA + TRT-LLM：Blackwell 上 3x-5x speedup（--nsa-prefill-backend trtllm --nsa-decode-backend trtllm）
SGLang 支持新模型：Qwen3.5 / Kimi-K2.5 / GLM-5 / MiniMax 2.5
Multi-LoRA：vLLM 和 SGLang 均支持单 base model 多 adapter
Disaggregated serving：SGLang 支持 prefill/decode 分离
可信度：⭐⭐⭐⭐（多来源交叉验证）
保留理由：
有具体命令参数、batch size 数值
与今天已有的框架对比内容互补（之前的草案偏概述，这些有具体数字）
建议写入路径：LLM-推理工程/benchmark数据/h100-2026

二、丢弃条目（工程价值不足）

❌ 丢弃1：「LLM 2026 预测」— Simon Willison / simonw

丢弃理由：
预测性内容，无工程命令/源码/性能数据
预测维度（1年/3年/6年）难以落地执行
核心内容（LLM 写代码变得不可否认、Jevons 悖论）属于行业观察而非工程实践
同类预测文章过多（可参见今日已有 ai-engineering-trending 覆盖）
不写入原因：知识库已有更具体的代码能力进展记录，此文定位重复

❌ 丢弃2：AI Agents Stack 2026 讨论评论片段

丢弃理由：
属于评论区的问答片段，非正文
内容（"监管合规层是否从第一天构建"）属于讨论引子，非工程结论
不写入原因：已在「保留3」中覆盖原文核心内容

❌ 丢弃3：MCP 2026 指南系列（Truto / Medium / Udemy 课程）

丢弃理由：
Truto 和 Medium 文章为 PM 视角，非工程师实操
Udemy MCP 课程列表无技术深度
更适合进入"工程资源列表"而非专项草稿
不写入原因：与awesome-ai-agents-2026资源列表功能重叠；今天已有 MCP 相关条目

❌ 丢弃4：FreeCodeCamp RAG 全套课程

丢弃理由：
YouTube 课程内容为教程性质，非工程经验总结
章节时间戳罗列而非关键洞察提炼
CSDN 上已有更具体的 RAG 工程实践条目
不写入原因：知识库已有 RAG 相关内容；教程类不适合知识库条目格式

❌ 丢弃5：「10 Essential Books AI Engineer 2026」列表

丢弃理由：
书单汇总，无原创工程内容
所有书籍均可从各作者 Substack/GitHub 独立追溯
不写入原因：书单不产生新工程洞察；与已有 reading list 功能重叠

三、分类标签汇总

条目	标签	写入路径
SkillsBench	`benchmark` `agent-skills` `evaluation` `arxiv`	`AI-Agent/评测基准/SkillsBench-2026`
Gen Academy 失败分析	`production` `eval-gap` `observability` `agent`	`LLM-应用工程/生产失败模式/eval-gap-2026`
AI Agents Stack 2026	`agent-framework` `stack` `six-layers` `substack`	`AI-Agent/架构栈/ai-agents-stack-2026`
MAC-Bench	`multi-agent` `compliance` `benchmark` `arxiv`	`AI-Agent/评测基准/MAC-Bench-2026`
H100 推理 Benchmark	`benchmark` `h100` `sglang` `vllm` `performance`	`LLM-推理工程/benchmark数据/h100-2026`

四、本次新增高价值发现

SkillsBench 是目前最系统的 Agent Skills 评测工作，对"如何设计有效的 Skill 模块"有直接工程指导价值
Eval gap（89% vs 52%） 是 LLM 应用生产失败的核心根因，比模型本身更值得关注
三-tier 评估基础设施正在收敛：PR级快速检查 → 每夜回归 → 持续监控
Self-generated Skills 无效的发现对 Agent 系统设计有重要影响：不能依赖模型自我构建 Skill
合规性评测（MAC-Bench / OWASP MCP Top 10）正在成为 Agent 安全的新焦点

五、后续行动

[ ] 精读 SkillsBench 原文（arxiv:2602.12670）方法论和附录
[ ] 核验 LangChain State of Agent Engineering 2025 调查报告原文
[ ] 获取 MAC-Bench 原文（arXiv:2606.07805）全文
[ ] 对比 SkillsBench 与已有 Agent 评测框架（BFCL / τ-bench / Terminal-Bench）
[ ] 建议更新知识库 AI-Agent/评测基准 专题页，纳入 SkillsBench 和 MAC-Bench

本轮筛选完毕。共写入 1 个草稿文件。