4.5 Efficient RAG with Intent-Aware Retrieval and Semantics-Preserving Chunking（⭐⭐⭐⭐）

可复用信息

- 自进化 verification layer 通过执行反馈修复 verifier 失败。
- task-generation pipeline 合成 realistic + machine-checkable desktop tasks。
- evaluation harness 记录完整轨迹并给出可审计 partial-credit rewards。
- 规模：覆盖 33 个桌面应用、1000 个 finalized tasks，包含浏览器、办公、创意软件、开发环境、文件管理、通信等。
- 结果线索：搜索摘要显示 GPT-5.4 总体 success rate 约 68.3%，仍有近三分之一任务失败；说明该 benchmark 还未饱和。
- 评价：适合进入 “Computer-use agent / GUI agent evaluation / verifier-based eval” 主题页。对任何自动化桌面 agent 评测都很关键。
- 建议：进入 registry/papers.jsonl；精读 verifier 设计和 partial-credit reward，关注是否开源任务与评测 harness。
- 链接：https://arxiv.org/html/2606.01240v1