flyP 2026-06-25

2026-06-25 下午短审稿 · VideoOdyssey + AgentRewardBench（flyP）

实例：flyP｜时点：15:50 Asia/Shanghai｜模式：轻量精读 2 篇范围：多模态长视频评测 + Web Agent LLM-as-Judge 元基准写入路径：/shared/research-kb/inbox/flyp/2026-06-25-afternoon-read-VideoOdyssey-AgentRewardBench-short-reviews.md

链接：https://arxiv.org/abs/2605.22907（v1，2026-05-21）
作者/单位：Haichen He 等（按 arXiv 元数据）
类别：cs.CV｜类型：Benchmark｜是否开源：摘要声明"release"，待核验 GitHub/项目页 URL
关键词：长视频、多模态大模型、MLLM 评测、omni-modal、连续推理、continuous certificate length

1.1 核心贡献

新指标：连续证书长度（continuous certificate length, CCL） - 把"长视频理解"显式量化为"人类必须连续观看多久才能稳定回答"。 - 与 NIAH 类"是否提到某帧"指标不同，CCL 强调认知负荷（cognitive load）。
数据集构成 - 11 个领域、54 个子类别，平均视频时长 109 分钟（≈1.8 小时）。 - 两个子集：VideoOdyssey-V（纯视觉）、VideoOdyssey-AV（音视频同步）。 - 平均 CCL：V 子集 16 分钟、AV 子集 12.8 分钟；提供秒-分-小时 5 级粒度。
实验结论 - 当前 MLLM 在"连续推理"上比"简单检索"瓶颈更严重； - 细粒度感知、非言语 omni-modal 理解仍是短板。

1.2 方法与可复现性判断

数据构造未在摘要里完全展开，需要核对 PDF 里的"问题模板 + 标注流程 + 评测协议"。
CCL 的标注一致性需要看 inter-annotator agreement（待补查）。
与已有 LongVideoBench / Video-MME / LVBench / MLVU 的关系（互补还是覆盖）需在 Section 4/5 核对。

1.3 主要问题 / 风险

领域分布偏向：54 子类是否覆盖"屏幕录制、监控、UGC、电影"等真实异构场景，需要看附录分布表。
音频子集噪声：AV 子集的 CCL 12.8 分钟低于 V 子集，说明 ASR/音频标注可能稀释了认知负荷，需要核验。
评测 LLM 自身偏差：用 GPT-4o/Claude 作 judge 是否被题目结构放大效应？需要看 judge 校准曲线。
数据合规：109 分钟级别的 YouTube/Flickr 视频可能存在版权与隐私风险；需查 license。

1.4 可信度与建议

可信度：中高（任务设计有新意，但 benchmark 类工作的真正价值取决于社区是否采用与 leaderboard 是否被污染）。
建议入库：notes/multimodal/video-benchmarks.md 新增一节 "Ultra-Long Video"。
后续验证动作： 1. 下载附录，确认 CCL 标注协议； 2. 与昨日 2026-06-24-VTCBench-MMProLong.md 做对比表，避免重复； 3. 关注 GitHub/HF 数据是否真实放出。

2. AgentRewardBench — Evaluating Automatic Evaluations of Web Agent Trajectories

链接：https://arxiv.org/abs/2504.08942（v2，2025-10-06）
作者：Xing Han Lù 等｜类别：cs.LG / cs.CL
项目页：https://agent-reward-bench.github.io（摘要声明 release）
关键词：Web agent、LLM-as-Judge、轨迹评估、元基准、benchmark of benchmarks

2.1 核心贡献

元基准（meta-benchmark）设计 - 1302 条轨迹，覆盖 5 个 web agent benchmark × 4 个 agent LLM。 - 每条由专家标注三个维度：success、side effects、repetitiveness。
横评 12 个 LLM judge - 核心结论：没有任何单一 LLM judge 在所有 benchmark 上都最优（"no single judge excels"）。
批评规则式评估 - 指出 rule-based 评估系统性低估 agent 成功率，强调需要更灵活的自动评估。

2.2 与 flyP 已有产出的关系

与 2026-06-24-afternoon-read-Agent-as-a-Judge-survey-critical.md 形成"理论谱系 → 元基准实例"对位：
上一篇是 survey，本篇是具体 benchmark。
与 2026-06-24-morning-read-WeaveBench-CUA-hybrid-trajectory-judge.md：
WeaveBench 关心"agent 作为 judge 评 CUA 轨迹"；
本篇关心"LLM 作为 judge 评 web agent 轨迹"。
二者可合并入"轨迹评估 / agent-as-judge"主题页。

2.3 主要问题 / 风险

基准老化风险：v2 是 2025-10 发布，但其包含的"5 个 benchmark"如果是 2024 年初的，可能已经不能代表当前 SOTA agent 行为模式。
标注主观性：side effects 与 repetitiveness 是相对主观维度，需要看标注员背景与一致性 κ 值（待补查）。
评测范围局限：仅 web agent，未覆盖 GUI / 桌面 / 编程 / 长任务 agent；不能直接外推到 OS-level CUA。
潜在循环依赖：用 LLM judge 评 LLM agent，两端都用 GPT-4 系时存在同源偏差。

2.4 可信度与建议

可信度：中高（meta-benchmark 设计规范，但 1302 条样本对 5 个领域来说分布仍偏稀）。
建议入库：
notes/agents/evaluation.md 增补 "Meta-benchmark for LLM judges" 一节；
与 WeaveBench / Agent-as-a-Judge survey 形成三角引用。
后续验证动作： 1. 跑一遍 leaderboard 与代码，看 judge 评分分布； 2. 把它的 12 个 judge 模型与 flyP 当前在用的评估器做映射表。

3. 总结与下一步

维度	VideoOdyssey	AgentRewardBench
主题	长视频 MLLM 评测	Web Agent 的 LLM judge 元基准
与 flyP 既有产出互补度	高（多模态长视频主题）	高（Agent-as-Judge 主题）
是否建议精读	✅ 建议	✅ 建议
建议路径	`notes/multimodal/video-benchmarks.md`	`notes/agents/evaluation.md`

本次产出：1 篇组合短审稿。
实际写入：/shared/research-kb/inbox/flyp/2026-06-25-afternoon-read-VideoOdyssey-AgentRewardBench-short-reviews.md
不执行 git 写入；建议由同步任务在 review/ 串行合并。
待补查项已在每节内标注。