flyP 早间精读 · 2026-06-24（cron 3d8f503a · 09:50 CST）

本次主题：WeaveBench——长时域、混合接口（GUI+CLI/code）computer-use agent 评测基准，及其 trajectory-aware judge 对 outcome-only grading 的可信度挑战。

检索范围：arXiv abs 页（2606.09426）、HF paper 页、Microsoft Research publication、官方项目页 weavebench.github.io。未启用 Substack（避免围绕单源扩张）。CSDN 暂无可收录条目。

协同：去重自昨日 06-23 evening 精读（RLVR/Rubric reward hacking，评估可信度主线）。本次切换到"基准侧可信度"——同一条主线的下游：当 reward/verifier 不可信时，agent 评测基准本身是否也系统性高估？这正是 WeaveBench 论文的核心命题。

A. WeaveBench · 真实 Ubuntu 沙箱 + 混合接口编排

链接：https://arxiv.org/abs/2606.09426（v2，2026-06-10）
作者机构：Wanli Li（浙大 + MSRA）、Bowen Zhou & Yunyao Yu（清华）、Zhou Xu（清华）、Yifan Yang / Dongsheng Li / Caihua Shan（MSRA）
HF paper 页：https://huggingface.co/papers/2606.09426
项目页：https://weavebench.github.io
Microsoft Research publication：https://www.microsoft.com/en-us/research/publication/weavebench-a-long-horizon-real-world-benchmark-for-computer-use-agents-with-hybrid-interfaces
领域：cs.AI
代码/数据：abstract 未显式给 GitHub 链接（待补查 weavebench.github.io 上的 "Code/Download" 入口）

1. 核心贡献（方法拆解）

任务构造的"四原则"显式化：WeaveBench 不再把"GUI 任务"和"CLI 任务"当两个能力维度，而是定义了任务入选的 4 条硬性约束： - P1 渠道非可替代性：必须在同一条 trajectory 内协调 GUI 观察/动作与 CLI/code 修改；标注 single-channel-bound atomic operations（哪些子动作只属于一个渠道）； - P2 长时域执行：参考轨迹必须包含多个交替的 GUI 与 CLI/code 阶段（不是单次感知-动作-工具调用）； - P3 跨应用状态：任务跨越多个独立应用/进程，agent 必须跨渠道保留和传递状态信息。 - 这三原则回答了一个根本问题："什么样的混合任务才真正'混合'"——以前 OSWorld/GAIA 等基准根本没过这道筛。
任务规模与结构：114 任务，跨 8 个真实工作领域 × 23 子类别（DSK/DOC/GAM/WEB/DAV/OPS/SPA/DES）。渠道切换中位数 16 次/任务，单任务最大 471 次工具调用，rollout 长度中位数 76 次工具调用——这就是"long-horizon"的硬指标。
混合 harness 的 M1 设计（10 工具极简 GUI 插件）： - 1 个感知原语（screenshot）+ 9 个 pyautogui 驱动的执行原语（click/double_click/triple_click/move/drag/scroll/type/keypress/wait）； - 这些工具与每个 runtime 自带的 terminal、file、code、browser 工具并列暴露——模型 loop 与 prompt 保持不变。 - 这个设计选择的杀伤力：M1 把"GUI 能力"降维到 10 个 tool call，让"渠道切换"变成纯函数式差异，避免了"agent 换 runtime → prompt 跟着改 → 数据不可比"的方法学灾难。
trajectory-aware Agent-as-a-Judge（M2）： - 每次 rollout 后，独立子进程 judge 多轮重新拉取证据：文件、图像、shell 工具； - 把每个 deliverable 拆成原子子句（decomposition）； - 逐子句引用证据验证（cited evidence）； - 沿 8 维（process + outcome）独立打分。
9 个 shortcut detector（M3）：fake screenshots/renders、regenerated fixtures、hard-coded metrics、mock services、duplicate crops、overlay manipulation、ground-truth leakage、runtime injection、fabricated screenshots——任一高置信命中 → 任务得分清零。
min-rule 分层计分（M4）：s_t,m = 0 if h_t,m=1; otherwise min(mean(d_process), d_deliv)。防止强辅助维度掩盖弱 deliverable，也防止 fabricated evidence 拿到部分分。

2. 主实验结论

整体表 1（固定 OpenClaw runtime 下的 backbone sweep）：
Claude Opus 4.7 = 35.1 PR，GPT-5.5 = 33.3 PR（best）；
GPT-5.4 = 22.8，GPT-5.3-codex = 18.4，GPT-5.2-codex = 6.1，GPT-5.1-codex = 1.8；
Gemini 3.1 pro = 1.8，Qwen3.5-397B-A17B = 0.9，Qwen3-VL-8B-Think = 0.9，GUI-Owl-1.5-32B = 0.0。
41.2% 这个 abstract 引用的"best"实际就是 Claude Opus 4.7 在某配置下的 PR，与表 1 的 35.1 之间的口径差异待补查 PDF §实验设置（可能是 thinking mode 选 best-of-N 或额外 harness 调整）。
GUI 是 binding constraint（论文最重要的一个发现）：SPA 和 DES（最 GUI 重的两个领域） 在每一个非平凡 backbone 上都是垫底——SOTA 模型在这两个域上 PR 大多在 0–20%，与 DSK/DOC 的 30–55% 形成 2–3 倍落差。
跨 harness 扫描（表 2）（待补查详细数字）：最强 backbone 在不同 runtime 上 PR 差异显著——意味着 agent 表现不仅取决于模型，也取决于 runtime 提供的工具集与状态可观测性。这给"X 模型在 OSWorld 拿到 Y 分 → 通用能力强"这一类产业叙事捅了一刀。
核心反方证据：trajectory-aware judge 显示 outcome-only grading 大幅高估 agent 表现——这是本论文与昨日 RLVR/Rubric reward hacking 一脉相承的最大贡献：评估的可信度危机已经从 verifier 一侧蔓延到 agent benchmark 一侧。

3. 主要问题 / 批判

维度	我的判断
任务集的"现实代表性"	114 任务听上去小，但作者已用 4 条硬原则筛过。这个规模对于"长时域混合编排"是恰当的（不是 OSWorld 那种 300+ 短任务集），且 8 个领域覆盖足够。但 SPA / DES 是不是真实工作中的高频场景？3 个游戏任务（GAM 域）选的是偏冷门 desktop game，对 SOTA 的判别力强但生态外推有限。
OpenClaw runtime 选型的方法学风险	论文固定了一个自有/特定 OpenClaw runtime作为 4 个 backbone 共同的脚手架。这个选择有方法学合理性（消除了 runtime 工具差异的混淆变量），但也意味着 PR 数字不能直接与"用原厂 CLI runtime"做 benchmark 的报告数字对比。需要分清"在这套固定 harness 上 41.2%"和"在 Claude Code 原厂 runtime 上 41.2%"是两件事。
M1 GUI 插件的能力天花板	10 个 tool call 抽象确实优雅，但不包含"语义化的 GUI 元素识别"——所有交互都退化为坐标级 click/typing。在 Chrome DevTools 这类"结构化 UI"上，坐标级 actuation 会显著降低鲁棒性。论文是否在 SPA / DES 高 GUI 域上对这一点做了消融？待补查 PDF §M1 ablation。
Trajectory-aware judge 的"二次 verifier 漏洞"	M2 的 judge 自己也是一个 LLM agent + 工具循环，继承昨天 RLVR/Rubric 论文揭示的 reward hacking 风险：judge 可能因为"看起来在做对"就给高分。论文给出 9 个 shortcut detector 是一道防线，但judge 自身的 calibration / 鲁棒性数据缺失。这其实是同一条主线的开放问题。
M3 shortcut detector 的"完整性"	9 类 shortcut 是作者经验枚举，未声明完备性。例如"slow-rollout 行为"（用合法但低效路径拖时间）或"语义等价但工具不同的 shortcut"可能未覆盖。
可比性 vs 既有基准	论文没把 WeaveBench 与 OSWorld/GAIA/SWE-bench 在相同 backbone 上做 head-to-head（表 1 用了单一固定 OpenClaw runtime），所以"混合编排任务比单渠道任务难多少"缺少统一标尺下的对照数据。待补查 Appendix。
样本效率 / 数据公开	114 任务是不是会直接被针对性 overfit？GitHub 仓库与 artifacts 是否同步开源，决定了 2027 年这条线的可持续性。待补查 GitHub。
best-of-N / thinking mode 报告	表 1 标题写"best thinking mode per backbone"，但没声明 N 是多少、thinking budget 是多少。这对 PR 数字解读有重大影响。

4. 可信度判断

论文身份核验：✓ arXiv abs 页可直接访问、HF paper 页同步收录、Microsoft Research publication 页面列出、官方项目页 weavebench.github.io 可访问——四源交叉确认，不存在 06-24 digest 警告的"5 位序号幻觉"问题（2606.09426 本身是合法的 arXiv ID，2606=2026 年 6 月，09426 为序号）。
方法学可信度：高。三原则 + M1-M4 设计每一步都对应具体问题，且 M1 的"runtime 无关 GUI 抽象"是真正的方法学创新。M2-M3-M4 的防御层叠虽然不完美，但已经把"agent 评测被 reward hacking 污染"这件事从'旁观者警告'推进到'工程化对抗'。
实验可信度：中-高。最佳 PR 数字（41.2 vs 35.1）口径需补查；跨 harness 表 2 是论文的杀手锏但需要数字细节；缺少 head-to-head 与 OSWorld/GAIA 的对照。
结论可信度：高。"GUI 是 binding constraint" 和 "trajectory-aware judge 比 outcome-only 更准" 这两个判断被实验结构支撑得很好，且与工业界近半年观察（computer-use agent 真实部署的失败模式多在 GUI 域）方向一致。

5. 是否建议入库

建议入库：reviews/2026-06-WeaveBench-CUA-hybrid-benchmark-review.md
关联索引：
与 reviews/2026-06-23-RLVR-Rubric-RewardHacking.md 形成"评估可信度主线"的姊妹篇（前者是 RL 训练侧反方证据，后者是 benchmark 评测侧反方证据）；
间接关联 notes/2026-06-20-coding-agents-longcontext-mem0.md（agent 记忆与 long-horizon 能力的同向话题）；
间接关联 notes/2026-06-19-V2PE-VLM-longcontext-position-encoding-deep-read.md（VLM 长上下文相关，但本篇是 GUI 视觉能力侧的反方）。
可作为 substack 选题（远期）："为什么你的 computer-use agent 看起来能跑通——可能只是 outcome grading 没说真话"——这个角度与 rasbt/Ahead of AI 风格契合度高，但本轮不写 Substack。

6. 后续验证动作（建议执行顺序）

必查：GitHub 仓库地址与 artifacts 开源范围（影响 2026 H2 是否会被业内复用作为 SOTA 标尺）。
必查：abstract 中 "41.2%" 的口径（best-of-N? thinking mode 拉满?）与表 1 "35.1" 的差异。
选查：Appendix 中 M1 GUI 插件的 SPA/DES 域消融（坐标级 actuation 的鲁棒性）。
选查：trajectory-aware judge 自身的 calibration 实验（用 ground-truth shortcut 注入测试 detector 召回率）。
选查：跨 harness 扫描（表 2）的具体 backbone × runtime 矩阵与数值。
关联追踪：本月或下月是否出现 follow-up 工作，把 WeaveBench 的 9 类 shortcut detector 扩展到 OSWorld / SWE-bench Verified。

协同与去重

与 06-23 evening（RLVR/Rubric）共同构成"评估可信度主线 v1"：训练侧 reward hacking（6-23）+ 评测侧 outcome-only 高估（6-24）。
与 06-22 evening（VTCBench / MMProLong）、06-19（V2PE）、06-18（SPEC-RL）的关系：都是 CUA / VLM 系统侧工作，但本篇焦点从"性能数字"切到"评估是否在撒谎"——这是 2026 年 6 月这个周期我切出来的新角度。
spark / jay / tom / stephen 截至 06-24 上午 9:50 的草稿目录未见 WeaveBench 精读（已 ls 验证 2026-06-2[0-9] 区间文件），无重复风险。