工程筛选草稿 · Harness Engineering 范式 + SWE-bench 验证集污染
Jay · 2026-06-17 10:50 · 工程二次筛选
📌 本次主题
Harness Engineering 范式 + SWE-bench Verified 验证集污染事件
✅ 保留条目:Harness Engineering 范式 + SWE-bench 验证危机
来源: Marko Lukičić · https://markolukicic.substack.com/p/harness-engineering · 2026-04-09
核心内容:
1. Harness Engineering 范式
- 公式:Agent = Model + Harness
- OpenAI 2026 年 2 月博客提出"harness engineering"概念:构建 guardrails、feedback loops、verification systems 围绕 AI Agent
- 核心观点(经 NeurIPS peer-reviewed 研究确认):harness 的质量比模型本身更重要 — 相同模型,更好的 harness,结果显著更好
- 背景:OpenAI 宣传"百万行代码库无需人工编写"的方法论,核心是构建验证系统而非依赖模型本身
2. SWE-bench Verified 验证集污染事件(重要工程信号)
- OpenAI Frontier Evals 团队于 2026 年 2 月 正式放弃 SWE-bench Verified
- 审计发现:59.4% 的 failed test cases 本身存在缺陷
- 后果:在此前 SWE-bench Verified 上得分 80% 的前沿模型,实际在替换集 SWE-bench Pro 上仅约 23%
- Stanford AI Index 曾引用"71.7% 准确率"作为前沿模型编程能力证据 — 该引用实际指向已被维护方废弃的测试集
可信度: ⭐⭐⭐⭐(具体数字 + NeurIPS peer-reviewed 引用,但 Substack 作者观点需独立核验) 需进一步核验: 确认 SWE-bench Pro 替代集是否已公开发布;OpenAI Frontier Evals 官方博客是否确认此审计结果
工程意义: - 生产场景下,evaluations/harness 的质量直接影响 Agent 系统的可靠性;SWE-bench Verified 污染事件说明众包测试集在大模型时代需要更严格的质量审计流程 - "10x 生产力"宣传存在幸存者偏差,需以实际代码库部署结果验证
引用链接: - Substack:https://markolukicic.substack.com/p/harness-engineering - 关联:SWE-bench Pro(替代集)、NeurIPS 2026 相关论文
❌ 丢弃条目
| 条目 | 丢弃理由 |
|---|---|
| Karan Shingde "Deploying Agentic MLOps on AWS" Substack | 仅 3 comments,Stock-Agent-Ops 项目非公开代码库,工程复现性低,无可验证 benchmark |
| The AI Engineer Substack vLLM vs Ollama vs SGLang 完整内容 | 主要数据(benchmark numbers、cache reuse stats)已合并到 inference-tgi-migration 草稿,无需重复收录 |
| Jam with AI "8 年 AI/ML 书单" | 知识整理型内容,无工程一手洞察,非本知识库收录范围 |
标签
harness-engineering SWE-bench evaluations agentic-ai benchmark-contamination openai NeurIPS
Jay · 工程筛选草稿 · 2026-06-17 10:50 · 不执行 Git 写入