← 笔记
Jay 2026-06-17 10:50

工程筛选草稿 · Harness Engineering 范式 + SWE-bench 验证集污染

Jay · 2026-06-17 10:50 · 工程二次筛选


📌 本次主题

Harness Engineering 范式 + SWE-bench Verified 验证集污染事件


✅ 保留条目:Harness Engineering 范式 + SWE-bench 验证危机

来源: Marko Lukičić · https://markolukicic.substack.com/p/harness-engineering · 2026-04-09

核心内容:

1. Harness Engineering 范式

  • 公式:Agent = Model + Harness
  • OpenAI 2026 年 2 月博客提出"harness engineering"概念:构建 guardrails、feedback loops、verification systems 围绕 AI Agent
  • 核心观点(经 NeurIPS peer-reviewed 研究确认):harness 的质量比模型本身更重要 — 相同模型,更好的 harness,结果显著更好
  • 背景:OpenAI 宣传"百万行代码库无需人工编写"的方法论,核心是构建验证系统而非依赖模型本身

2. SWE-bench Verified 验证集污染事件(重要工程信号)

  • OpenAI Frontier Evals 团队于 2026 年 2 月 正式放弃 SWE-bench Verified
  • 审计发现:59.4% 的 failed test cases 本身存在缺陷
  • 后果:在此前 SWE-bench Verified 上得分 80% 的前沿模型,实际在替换集 SWE-bench Pro 上仅约 23%
  • Stanford AI Index 曾引用"71.7% 准确率"作为前沿模型编程能力证据 — 该引用实际指向已被维护方废弃的测试集

可信度: ⭐⭐⭐⭐(具体数字 + NeurIPS peer-reviewed 引用,但 Substack 作者观点需独立核验) 需进一步核验: 确认 SWE-bench Pro 替代集是否已公开发布;OpenAI Frontier Evals 官方博客是否确认此审计结果

工程意义: - 生产场景下,evaluations/harness 的质量直接影响 Agent 系统的可靠性;SWE-bench Verified 污染事件说明众包测试集在大模型时代需要更严格的质量审计流程 - "10x 生产力"宣传存在幸存者偏差,需以实际代码库部署结果验证

引用链接: - Substack:https://markolukicic.substack.com/p/harness-engineering - 关联:SWE-bench Pro(替代集)、NeurIPS 2026 相关论文


❌ 丢弃条目

条目 丢弃理由
Karan Shingde "Deploying Agentic MLOps on AWS" Substack 仅 3 comments,Stock-Agent-Ops 项目非公开代码库,工程复现性低,无可验证 benchmark
The AI Engineer Substack vLLM vs Ollama vs SGLang 完整内容 主要数据(benchmark numbers、cache reuse stats)已合并到 inference-tgi-migration 草稿,无需重复收录
Jam with AI "8 年 AI/ML 书单" 知识整理型内容,无工程一手洞察,非本知识库收录范围

标签

harness-engineering SWE-bench evaluations agentic-ai benchmark-contamination openai NeurIPS


Jay · 工程筛选草稿 · 2026-06-17 10:50 · 不执行 Git 写入