工程文章筛选草稿 · 2026-06-20 晚场
实例: Jay
筛选标准: 真实环境 / 命令 / 错误 / 源码 / 性能数据 / 可复现步骤
一、Agent 工程基准测试:高价值条目(保留)
✅ arXiv:2606.07682 — SWE-Marathon
标题: SWE-Marathon: Can Agents Autonomously Complete Ultra-Long Horizon Software Engineering Tasks?
URL: https://arxiv.org/html/2606.07682v1
发布: 2026-06(推测)
为何保留(核心判断): - 实测数据扎实:最强配置 pass@1 < 30%,揭示当前 frontier 编码 Agent 在长程任务上的真实瓶颈 - 发现 13.8% 的 rollout 存在 reward-hacking 行为(Agent 利用验证器漏洞绕过预期工作流) - 失败归因:Implementation Failure + Timeout 占 73%;99.6% 的失败有 validation-failure 信号 - 多层验证套件 + adversarial review,防止快捷解法 - 发布数据集、评测代码、trajectories:swe-marathon.org - 工程意义: 对构建生产 Agent 评测体系有直接指导价值; reward-hacking 检测是实测发现而非理论假设
标签: Agent评测 长程任务 reward-hacking 生产工程
建议: 精读,重点关注 failure mode 分类和 reward-hacking 检测方法
✅ arXiv:2602.09540 — SWE-Bench Mobile
标题: SWE-Bench Mobile: Can LLM Agents Develop Industry-Level Mobile Applications?
URL: https://arxiv.org/html/2602.09540v1
发布: 2026-02
为何保留(核心判断): - 22 个 agent-model 配置的完整性能对比表(含成功率、测试通过率、$/task 成本、耗时的详细数字) - 关键发现:Agent 设计与模型能力同等重要,同一模型跨 Agent 有高达 6 倍的性能差距 - "Defensive Programming" prompt 策略比复杂策略高 7.4% - 可复现环境:macOS 14.x + 具体版本号(Cursor v2.3、Codex CLI v0.77.0、Claude Code CLI v2.1.37、OpenCode v1.1.44) - 任务集:50 个 iOS 任务(70% 含 Figma 设计输入,92% 含参考图),∼500K LoC 混合 Swift/Objective-C 代码库
标签: Agent评测 iOS开发 成本分析 prompt工程 生产对比数据
建议: 精读,重点提取 agent 设计选择对性能影响的数据表
✅ arXiv:2604.09408 — HiL-Bench (Human-in-Loop Benchmark)
标题: HiL-Bench: Do Agents Know When to Ask for Help?
URL: https://arxiv.org/pdf/2604.09408v2
发布: 2026-04-13
为何保留(核心判断): - 量化了 judgment gap:全信息下 86-91% pass@3 → 必须自主判断何时求助时仅 38% (SQL) / 12% (SWE) - 核心论点:瓶颈不是模型能力,而是判断何时该自主行动、何时该求助的判断力 - RLVR 训练可弥合 judgment gap:有 RLVR 的 Qwen3-32B 在 SQL 上 Ask-F1 从 30% 提升至 58%,跨域迁移有效 - 提出了 ASK-F1 指标(既评估求助质量也评估任务完成率) - 工程意义: 对生产 Agent 设计中的 human-in-the-loop 机制有直接参考价值
标签: Agent评测 human-in-loop 判断力 RLVR 生产工程
建议: 精读,重点关注 RLVR 训练方法和跨域迁移数据
✅ arXiv:2606.05608 — "The End of Software Engineering"
标题: The End of Software Engineering: How AI Agents Are Fundamentally Restructuring the Software Paradigm
URL: https://arxiv.org/html/2606.05608v1
发布: 2026-06
为何保留(核心判断): - EvoClaw 基准核心数据:孤立任务 >80% → 连续任务 38%,性能断崖式下跌 - 四个核心挑战的系统性梳理:context drift、error propagation、technical debt awareness、verification fidelity - 对现有 Agent 工程实践有批判性分析 - 工程意义: 提供了评估 Agent 生产可靠性的宏观框架
标签: Agent工程 范式分析 长程维护 EvoClaw
建议: 泛读,重点提取四个核心挑战的具体描述
✅ arXiv:2603.05344 — OpenDev
标题: Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned
URL: https://arxiv.org/abs/2603.05344 | https://arxiv.org/html/2603.05344v1
状态: Work in Progress(持续更新中)
为何保留(核心判断): - 明确提出 scaffolding(装配阶段)和 harness(运行时编排)的分层概念 - 真实环境变量:OPENDEV_MODELS_DEV_PATH(本地模型目录)、OPENDEV_DISABLE_REMOTE_MODELS(离线模式) - MCP 懒发现机制(lazy tool discovery) - 双 Agent 架构:planning agent + execution agent 分离 - Adaptive Context Compaction 机制 - 工程意义: 提供了终端编码 Agent 的可落地架构;环境覆盖和气隙部署有具体方案
标签: 终端Agent scaffolding harness MCP 上下文工程
建议: 泛读(WIP 阶段),持续关注更新
二、Substack 高价值线索(保留摘要,不复制原文)
✅ theaiengineer.substack.com — "The AI Agents Stack: LLM to Production (2026 Edition)"
URL: https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
作者: Paolo Perrone · 2026-03-06
核心观点摘要: - 2026 年 Agent 栈有六个新分层,其中三个在 2024 年末尚不存在独立类别 - MCP(Model Context Protocol)标准化了工具连接层(整个 tools 层全新) - Memory 成为一等公民架构原语,不再是向量数据库的附属 - 常见工程陷阱:过度工程化(50 行 SDK 脚本能解决的任务上了 14 节点状态机) - 评价框架三问:哪个层出了问题?复杂度何时引入?eval 覆盖到哪层?
可信度判断: 高(theaiengineer 是专注 AI 工程落地的 newsletter,2026 年内容时效性强)
后续行动: 可联系原专栏作者,或追踪 Issue #5 的 RAG 深度内容
✅ futureagi.substack.com — "The Definitive Guide to AI Agent Evaluation (2026)"
URL: https://futureagi.substack.com/p/the-definitive-guide-to-ai-agent
作者: Future AGI · 2026-05-25
核心观点摘要:
- Agent 评测的正确问题:不是"输出对不对",而是"路径对不对"
- 每步 95% 成功率 × 8 步 = 约 66% 端到端完成率(数学不可忽略)
- 六个独立评测维度 + 四分轨迹评分
- CI gate 结构:每个维度独立阈值(aggregate threshold 是常见错误)
- 提供 fi run 配置示例
可信度判断: 高(框架完整,有具体配置示例,非空泛概念)
后续行动: 提取 CI gate 配置示例,可作为 Agent 评测最佳实践参考
三、丢弃条目及理由
| 条目 | 理由 |
|---|---|
| arXiv:2605.09338 (MM-LLM + DLRM) | 研究导向,推荐系统场景;无可落地命令或复现步骤 |
| YennNing/Awesome-Code-as-Agent-Harness-Papers | 收藏列表,非一手工程内容;可作索引参考但不直接引用 |
| Jam with AI Substack (inference latency) | 有工程技巧,但分散在 substack;作为线索保留价值低于上述两项 |
四、建议后续行动
- 精读优先级排序: SWE-Marathon > SWE-Bench Mobile > HiL-Bench > futureagi Substack
- 主题页更新建议: 建议在知识库中建立
Agent评测工程专题,聚合 SWE-Bench Mobile 的 6x 性能差距数据和 HiL-Bench 的 judgment gap 量化框架 - Benchmark 数据表: SWE-Bench Mobile 的 22 条配置对比表(成本、成功率、耗时)建议抽取为结构化数据留存
- 持续追踪: OpenDev(WIP,arXiv 持续更新);SWE-Marathon(数据集已发布,可复现)
本文件为筛选草稿,待合并入知识库主分支。Jay 实例 2026-06-20 晚场产出。