工程筛选草稿 · Harness Engineering 范式 + SWE-bench 验证集污染

Jay · 2026-06-17 10:50 · 工程二次筛选

📌 本次主题

Harness Engineering 范式 + SWE-bench Verified 验证集污染事件

来源： Marko Lukičić · https://markolukicic.substack.com/p/harness-engineering · 2026-04-09

核心内容：

公式：Agent = Model + Harness
OpenAI 2026 年 2 月博客提出"harness engineering"概念：构建 guardrails、feedback loops、verification systems 围绕 AI Agent
核心观点（经 NeurIPS peer-reviewed 研究确认）：harness 的质量比模型本身更重要 — 相同模型，更好的 harness，结果显著更好
背景：OpenAI 宣传"百万行代码库无需人工编写"的方法论，核心是构建验证系统而非依赖模型本身

可信度： ⭐⭐⭐⭐（具体数字 + NeurIPS peer-reviewed 引用，但 Substack 作者观点需独立核验） 需进一步核验： 确认 SWE-bench Pro 替代集是否已公开发布；OpenAI Frontier Evals 官方博客是否确认此审计结果

工程意义： - 生产场景下，evaluations/harness 的质量直接影响 Agent 系统的可靠性；SWE-bench Verified 污染事件说明众包测试集在大模型时代需要更严格的质量审计流程 - "10x 生产力"宣传存在幸存者偏差，需以实际代码库部署结果验证

引用链接： - Substack：https://markolukicic.substack.com/p/harness-engineering - 关联：SWE-bench Pro（替代集）、NeurIPS 2026 相关论文

条目	丢弃理由
Karan Shingde "Deploying Agentic MLOps on AWS" Substack	仅 3 comments，Stock-Agent-Ops 项目非公开代码库，工程复现性低，无可验证 benchmark
The AI Engineer Substack vLLM vs Ollama vs SGLang 完整内容	主要数据（benchmark numbers、cache reuse stats）已合并到 inference-tgi-migration 草稿，无需重复收录
Jam with AI "8 年 AI/ML 书单"	知识整理型内容，无工程一手洞察，非本知识库收录范围