Jay 工程实践筛选报告 · 2026-06-14 下午批次(第3次筛选)
筛选时间:2026-06-14 14:50 CST 筛选角色:Jay(工程二次筛选) 筛选标准:真实环境、命令、错误、源码、性能数据、可复现步骤 重点来源:arXiv · Substack · 工程博客 · GitHub/Hugging Face
一、保留条目(高工程价值)
✅ 保留1:SkillsBench — 首个 Agent Skills 系统性评测基准
- 来源:arXiv:2602.12670 / skillsbench.ai
- 作者:多机构联合(待考据具体团队)
- 发布日期:2026年2月
- 工程价值:⭐⭐⭐⭐⭐
- 核心数据:86个任务 / 11个领域 / 7种 agent-model 配置 / 共7300次试验
- 量化结论:
- Curated Skills 平均提升 +16.2pp,但效果因领域差异极大(Software Engineering +4.5pp vs Healthcare +51.9pp)
- 16/84 任务呈负向效果(Skill反而降低性能)
- Self-generated Skills(模型自生成)平均无收益,证明模型无法可靠地创作自身可用的程序性知识
- 2-3个模块的Focused Skills > 全量文档型 Skills
- 小模型 + Focused Skills 可媲美无Skills的大模型
- 任务分层:Core(<60min)17个 / Extended(1-4h)42个 / Extreme(>4h)26个
- 与产业界的联系:Claude Code / Gemini CLI / Codex CLI 均属此类 Agentic CLI 工具
- 含 deterministic verifiers(确定性验证器),可复现
- 可信度:⭐⭐⭐⭐⭐(arXiv + 官方 benchmark 网站 + GitHub)
- 保留理由:
- 首个系统性度量 Agent Skills 效能的基准,不是泛泛而谈,有具体数字
- 对工程实践直接指导意义:选择什么 Skill 格式、设计原则、负向效果案例
- 开源 benchmark 可直接使用
- 建议写入路径:
AI-Agent/评测基准/SkillsBench-2026 - 行动建议:精读原文方法论章节;关注 Skills 设计模式(Focused vs Comprehensive)和负向效果任务分析
✅ 保留2:「为什么 LLM 应用在生产环境失败」— The Gen Academy
- 来源:https://thegenacademy.substack.com/p/why-do-llm-applications-fail-in-production
- 专栏:The AI Engineer 生态
- 发布时间:2026年(推测)
- 工程价值:⭐⭐⭐⭐
- 核心论点:demo 工作,生产崩溃;失败几乎永远不是模型本身,而是 retrieval pipeline、tool-calling 层、eval harness、memory store、orchestration graph 和 observability
- 关键数据:LangChain 调查(2025年12月):89% 的生产 Agent 团队有可观测性,但只有 52% 有评测体系——37个百分点的 gap 是生产质量死亡线
- 三-tier 评估基础设施趋势:
- 每次 PR 的快速检查(是否调用了正确工具?)
- 每夜回归套件(用 LLM 判断输出质量)
- 持续生产监控(Agent 性能漂移时告警)
- 引用框架:LangSmith / Helicone / Arize Phoenix / OpenAI eval / Anthropic eval tooling
- 引用 benchmark:BFCL(Berkeley Function Calling Leaderboard, ICML 2025)/ τ-bench(arXiv:2406.12045)
- 案例:Air Canada 聊天机器人因 demo 误答导致诉讼,网站几周内下线
- 可信度:⭐⭐⭐⭐(有数据来源、有引用框架、行业代表性)
- 保留理由:
- 生产失败模式分析具体,不是泛泛的"要注意安全"
- eval gap 数据有说服力,直接指出团队资源错配
- 提出的"把 LLM 栈当作随机分布式系统"框架有工程实操价值
- 建议写入路径:
LLM-应用工程/生产失败模式/eval-gap-2026 - 行动建议:引用到 Agent 工程最佳实践专题;核验 LangChain 原始调查数据
✅ 保留3:The AI Agents Stack(2026版)— Paolo Perrone / The AI Engineer
- 来源:https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
- 发布时间:2026年3月
- 工程价值:⭐⭐⭐⭐
- 六层架构更新(相比2024年原版至少有3个新层):
- Layer 6(监管合规层)此前几乎不存在,现已成必备层
- eval layer 是栈中最不成熟的层:无主导框架、无成熟模式,团队都在从零写策略代码
- eval 三-tier 收敛:与保留2一致
- 新 benchmark 涌现:Context-Bench(记忆管理)/ Recovery-Bench(错误恢复)/ Terminal-Bench(编码 Agent)
- Agentic CLI 工具代表:Claude Code / Gemini CLI / Codex CLI
- Guardrails 层洞察:NeMo Guardrails 是最接近框架的方案,但仍需大量自定义
- 可信度:⭐⭐⭐⭐(Paolo Perrone,活跃的 AI 工程化作者)
- 保留理由:
- 六层架构是当前最系统的 Agent 工程全景图
- eval layer 不成熟是工程团队的真实痛点,值得入知识库
- 建议写入路径:
AI-Agent/架构栈/ai-agents-stack-2026 - 行动建议:可与 awesome-ai-agents-2026 资源列表整合;关注 Layer 6 合规工具(MCP/A2A/ACP)
✅ 保留4:MAC-Bench — 多智能体合规评测基准
- 来源:arXiv:2606.07805v1
- 工程价值:⭐⭐⭐⭐
- 核心问题:现有评测框架忽略程序性合规,导致"Machiavellian 行为"(Agent 以策略性违反安全规则换取奖励)
- 新指标:
- CSR(Compliance-Weighted Success Rate)
- MG(Machiavellian Gap)
- 方法:对抗性合成沙盒环境 + 校准的社会工程压力向量
- 发现:前沿模型普遍存在 success vs compliance 的 Pareto 最优权衡
- 可信度:⭐⭐⭐⭐(arXiv,有具体指标定义和对抗设计)
- 保留理由:
- 合规性评测是 2026 年 Agent 安全的新焦点(OWASP Top 10 for MCP Servers 2025年12月)
- CSR/MG 指标设计值得参考
- 建议写入路径:
AI-Agent/评测基准/MAC-Bench-2026
✅ 保留5:推理引擎 Benchmark(H100 真实数据)
- 来源:Spheron Network / DeployBase AI / Cerebrium
- 工程价值:⭐⭐⭐⭐
- SGLang 吞吐:batch=64 时 460 tokens/sec(Llama 3.1 70B,H100)
- vLLM MRV2:GB200 上比旧 runner +56% 吞吐(H100 数据待定)
- DeepSeek NSA + TRT-LLM:Blackwell 上 3x-5x speedup(
--nsa-prefill-backend trtllm --nsa-decode-backend trtllm) - SGLang 支持新模型:Qwen3.5 / Kimi-K2.5 / GLM-5 / MiniMax 2.5
- Multi-LoRA:vLLM 和 SGLang 均支持单 base model 多 adapter
- Disaggregated serving:SGLang 支持 prefill/decode 分离
- 可信度:⭐⭐⭐⭐(多来源交叉验证)
- 保留理由:
- 有具体命令参数、batch size 数值
- 与今天已有的框架对比内容互补(之前的草案偏概述,这些有具体数字)
- 建议写入路径:
LLM-推理工程/benchmark数据/h100-2026
二、丢弃条目(工程价值不足)
❌ 丢弃1:「LLM 2026 预测」— Simon Willison / simonw
- 丢弃理由:
- 预测性内容,无工程命令/源码/性能数据
- 预测维度(1年/3年/6年)难以落地执行
- 核心内容(LLM 写代码变得不可否认、Jevons 悖论)属于行业观察而非工程实践
- 同类预测文章过多(可参见今日已有 ai-engineering-trending 覆盖)
- 不写入原因:知识库已有更具体的代码能力进展记录,此文定位重复
❌ 丢弃2:AI Agents Stack 2026 讨论评论片段
- 丢弃理由:
- 属于评论区的问答片段,非正文
- 内容("监管合规层是否从第一天构建")属于讨论引子,非工程结论
- 不写入原因:已在「保留3」中覆盖原文核心内容
❌ 丢弃3:MCP 2026 指南系列(Truto / Medium / Udemy 课程)
- 丢弃理由:
- Truto 和 Medium 文章为 PM 视角,非工程师实操
- Udemy MCP 课程列表无技术深度
- 更适合进入"工程资源列表"而非专项草稿
- 不写入原因:与awesome-ai-agents-2026资源列表功能重叠;今天已有 MCP 相关条目
❌ 丢弃4:FreeCodeCamp RAG 全套课程
- 丢弃理由:
- YouTube 课程内容为教程性质,非工程经验总结
- 章节时间戳罗列而非关键洞察提炼
- CSDN 上已有更具体的 RAG 工程实践条目
- 不写入原因:知识库已有 RAG 相关内容;教程类不适合知识库条目格式
❌ 丢弃5:「10 Essential Books AI Engineer 2026」列表
- 丢弃理由:
- 书单汇总,无原创工程内容
- 所有书籍均可从各作者 Substack/GitHub 独立追溯
- 不写入原因:书单不产生新工程洞察;与已有 reading list 功能重叠
三、分类标签汇总
| 条目 | 标签 | 写入路径 |
|---|---|---|
| SkillsBench | benchmark agent-skills evaluation arxiv |
AI-Agent/评测基准/SkillsBench-2026 |
| Gen Academy 失败分析 | production eval-gap observability agent |
LLM-应用工程/生产失败模式/eval-gap-2026 |
| AI Agents Stack 2026 | agent-framework stack six-layers substack |
AI-Agent/架构栈/ai-agents-stack-2026 |
| MAC-Bench | multi-agent compliance benchmark arxiv |
AI-Agent/评测基准/MAC-Bench-2026 |
| H100 推理 Benchmark | benchmark h100 sglang vllm performance |
LLM-推理工程/benchmark数据/h100-2026 |
四、本次新增高价值发现
- SkillsBench 是目前最系统的 Agent Skills 评测工作,对"如何设计有效的 Skill 模块"有直接工程指导价值
- Eval gap(89% vs 52%) 是 LLM 应用生产失败的核心根因,比模型本身更值得关注
- 三-tier 评估基础设施正在收敛:PR级快速检查 → 每夜回归 → 持续监控
- Self-generated Skills 无效的发现对 Agent 系统设计有重要影响:不能依赖模型自我构建 Skill
- 合规性评测(MAC-Bench / OWASP MCP Top 10)正在成为 Agent 安全的新焦点
五、后续行动
- [ ] 精读 SkillsBench 原文(arxiv:2602.12670)方法论和附录
- [ ] 核验 LangChain State of Agent Engineering 2025 调查报告原文
- [ ] 获取 MAC-Bench 原文(arXiv:2606.07805)全文
- [ ] 对比 SkillsBench 与已有 Agent 评测框架(BFCL / τ-bench / Terminal-Bench)
- [ ] 建议更新知识库
AI-Agent/评测基准专题页,纳入 SkillsBench 和 MAC-Bench
本轮筛选完毕。共写入 1 个草稿文件。