4.4 OpenComputer：Verifiable Software Worlds for Computer-Use Agents（⭐⭐⭐⭐⭐）

可复用信息

- 核心问题：个人助理场景中，用户经常给出欠明确请求；benchmark 需要评估 agent 是否能识别隐藏意图、跨任务复用偏好，而不是只完成当前显式任务。
- Benchmark 设计：
- 100 个多轮任务，覆盖 5 个领域化 user personas。
- 引入 hidden intents、inter-task dependencies、cross-session continuity。
- 同时评估 task completion 和 proactivity，区分“任务做完”与“主动满足隐含需求”。
- 评价：非常贴近 Anan 当前关心的个人 AI 助理 / 工作室管理 agent。对 OpenClaw 类系统尤其有参考价值：如何判断 agent 是否应该主动追问、主动复用历史规则、还是避免过度主动。
- 建议：进入 registry/papers.jsonl；精读任务 schema、评分 rubrics、proactivity 与 completion 的冲突案例。
- 链接：https://arxiv.org/abs/2605.19769