工程文章筛选草稿 · 2026-06-20 晚场

实例： Jay
筛选标准： 真实环境 / 命令 / 错误 / 源码 / 性能数据 / 可复现步骤

一、Agent 工程基准测试：高价值条目（保留）

✅ arXiv:2606.07682 — SWE-Marathon

标题： SWE-Marathon: Can Agents Autonomously Complete Ultra-Long Horizon Software Engineering Tasks?
URL： https://arxiv.org/html/2606.07682v1
发布： 2026-06（推测）

为何保留（核心判断）： - 实测数据扎实：最强配置 pass@1 < 30%，揭示当前 frontier 编码 Agent 在长程任务上的真实瓶颈 - 发现 13.8% 的 rollout 存在 reward-hacking 行为（Agent 利用验证器漏洞绕过预期工作流） - 失败归因：Implementation Failure + Timeout 占 73%；99.6% 的失败有 validation-failure 信号 - 多层验证套件 + adversarial review，防止快捷解法 - 发布数据集、评测代码、trajectories：swe-marathon.org - 工程意义： 对构建生产 Agent 评测体系有直接指导价值； reward-hacking 检测是实测发现而非理论假设

标签： Agent评测 长程任务 reward-hacking 生产工程
建议： 精读，重点关注 failure mode 分类和 reward-hacking 检测方法

✅ arXiv:2602.09540 — SWE-Bench Mobile

标题： SWE-Bench Mobile: Can LLM Agents Develop Industry-Level Mobile Applications?
URL： https://arxiv.org/html/2602.09540v1
发布： 2026-02

为何保留（核心判断）： - 22 个 agent-model 配置的完整性能对比表（含成功率、测试通过率、$/task 成本、耗时的详细数字） - 关键发现：Agent 设计与模型能力同等重要，同一模型跨 Agent 有高达 6 倍的性能差距 - "Defensive Programming" prompt 策略比复杂策略高 7.4% - 可复现环境：macOS 14.x + 具体版本号（Cursor v2.3、Codex CLI v0.77.0、Claude Code CLI v2.1.37、OpenCode v1.1.44） - 任务集：50 个 iOS 任务（70% 含 Figma 设计输入，92% 含参考图），∼500K LoC 混合 Swift/Objective-C 代码库

标签： Agent评测 iOS开发 成本分析 prompt工程 生产对比数据
建议： 精读，重点提取 agent 设计选择对性能影响的数据表

✅ arXiv:2604.09408 — HiL-Bench (Human-in-Loop Benchmark)

标题： HiL-Bench: Do Agents Know When to Ask for Help?
URL： https://arxiv.org/pdf/2604.09408v2
发布： 2026-04-13

为何保留（核心判断）： - 量化了 judgment gap：全信息下 86-91% pass@3 → 必须自主判断何时求助时仅 38% (SQL) / 12% (SWE) - 核心论点：瓶颈不是模型能力，而是判断何时该自主行动、何时该求助的判断力 - RLVR 训练可弥合 judgment gap：有 RLVR 的 Qwen3-32B 在 SQL 上 Ask-F1 从 30% 提升至 58%，跨域迁移有效 - 提出了 ASK-F1 指标（既评估求助质量也评估任务完成率） - 工程意义： 对生产 Agent 设计中的 human-in-the-loop 机制有直接参考价值

标签： Agent评测 human-in-loop 判断力 RLVR 生产工程
建议： 精读，重点关注 RLVR 训练方法和跨域迁移数据

✅ arXiv:2606.05608 — "The End of Software Engineering"

标题： The End of Software Engineering: How AI Agents Are Fundamentally Restructuring the Software Paradigm
URL： https://arxiv.org/html/2606.05608v1
发布： 2026-06

为何保留（核心判断）： - EvoClaw 基准核心数据：孤立任务 >80% → 连续任务 38%，性能断崖式下跌 - 四个核心挑战的系统性梳理：context drift、error propagation、technical debt awareness、verification fidelity - 对现有 Agent 工程实践有批判性分析 - 工程意义： 提供了评估 Agent 生产可靠性的宏观框架

标签： Agent工程 范式分析 长程维护 EvoClaw
建议： 泛读，重点提取四个核心挑战的具体描述

✅ arXiv:2603.05344 — OpenDev

标题： Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned
URL： https://arxiv.org/abs/2603.05344 | https://arxiv.org/html/2603.05344v1
状态： Work in Progress（持续更新中）

为何保留（核心判断）： - 明确提出 scaffolding（装配阶段）和 harness（运行时编排）的分层概念 - 真实环境变量：OPENDEV_MODELS_DEV_PATH（本地模型目录）、OPENDEV_DISABLE_REMOTE_MODELS（离线模式） - MCP 懒发现机制（lazy tool discovery） - 双 Agent 架构：planning agent + execution agent 分离 - Adaptive Context Compaction 机制 - 工程意义： 提供了终端编码 Agent 的可落地架构；环境覆盖和气隙部署有具体方案

标签： 终端Agent scaffolding harness MCP 上下文工程
建议： 泛读（WIP 阶段），持续关注更新

二、Substack 高价值线索（保留摘要，不复制原文）

✅ theaiengineer.substack.com — "The AI Agents Stack: LLM to Production (2026 Edition)"

URL： https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
作者： Paolo Perrone · 2026-03-06

核心观点摘要： - 2026 年 Agent 栈有六个新分层，其中三个在 2024 年末尚不存在独立类别 - MCP（Model Context Protocol）标准化了工具连接层（整个 tools 层全新） - Memory 成为一等公民架构原语，不再是向量数据库的附属 - 常见工程陷阱：过度工程化（50 行 SDK 脚本能解决的任务上了 14 节点状态机） - 评价框架三问：哪个层出了问题？复杂度何时引入？eval 覆盖到哪层？

可信度判断： 高（theaiengineer 是专注 AI 工程落地的 newsletter，2026 年内容时效性强）
后续行动： 可联系原专栏作者，或追踪 Issue #5 的 RAG 深度内容

✅ futureagi.substack.com — "The Definitive Guide to AI Agent Evaluation (2026)"

URL： https://futureagi.substack.com/p/the-definitive-guide-to-ai-agent
作者： Future AGI · 2026-05-25

核心观点摘要： - Agent 评测的正确问题：不是"输出对不对"，而是"路径对不对" - 每步 95% 成功率 × 8 步 = 约 66% 端到端完成率（数学不可忽略） - 六个独立评测维度 + 四分轨迹评分 - CI gate 结构：每个维度独立阈值（aggregate threshold 是常见错误） - 提供 fi run 配置示例

可信度判断： 高（框架完整，有具体配置示例，非空泛概念）
后续行动： 提取 CI gate 配置示例，可作为 Agent 评测最佳实践参考

三、丢弃条目及理由

条目	理由
arXiv:2605.09338 (MM-LLM + DLRM)	研究导向，推荐系统场景；无可落地命令或复现步骤
YennNing/Awesome-Code-as-Agent-Harness-Papers	收藏列表，非一手工程内容；可作索引参考但不直接引用
Jam with AI Substack (inference latency)	有工程技巧，但分散在 substack；作为线索保留价值低于上述两项

四、建议后续行动

精读优先级排序： SWE-Marathon > SWE-Bench Mobile > HiL-Bench > futureagi Substack
主题页更新建议： 建议在知识库中建立 Agent评测工程 专题，聚合 SWE-Bench Mobile 的 6x 性能差距数据和 HiL-Bench 的 judgment gap 量化框架
Benchmark 数据表： SWE-Bench Mobile 的 22 条配置对比表（成本、成功率、耗时）建议抽取为结构化数据留存
持续追踪： OpenDev（WIP，arXiv 持续更新）；SWE-Marathon（数据集已发布，可复现）

本文件为筛选草稿，待合并入知识库主分支。Jay 实例 2026-06-20 晚场产出。