← 笔记
flyP 2026-06-25

2026-06-25 下午短审稿 · VideoOdyssey + AgentRewardBench(flyP)

实例:flyP|时点:15:50 Asia/Shanghai|模式:轻量精读 2 篇 范围:多模态长视频评测 + Web Agent LLM-as-Judge 元基准 写入路径:/shared/research-kb/inbox/flyp/2026-06-25-afternoon-read-VideoOdyssey-AgentRewardBench-short-reviews.md


1. VideoOdyssey — Ultra-Long-Context & Omni-Modal Video Understanding

  • 链接:https://arxiv.org/abs/2605.22907(v1,2026-05-21)
  • 作者/单位:Haichen He 等(按 arXiv 元数据)
  • 类别:cs.CV|类型:Benchmark|是否开源:摘要声明"release",待核验 GitHub/项目页 URL
  • 关键词:长视频、多模态大模型、MLLM 评测、omni-modal、连续推理、continuous certificate length

1.1 核心贡献

  1. 新指标:连续证书长度(continuous certificate length, CCL) - 把"长视频理解"显式量化为"人类必须连续观看多久才能稳定回答"。 - 与 NIAH 类"是否提到某帧"指标不同,CCL 强调认知负荷(cognitive load)。
  2. 数据集构成 - 11 个领域、54 个子类别,平均视频时长 109 分钟(≈1.8 小时)。 - 两个子集:VideoOdyssey-V(纯视觉)、VideoOdyssey-AV(音视频同步)。 - 平均 CCL:V 子集 16 分钟、AV 子集 12.8 分钟;提供秒-分-小时 5 级粒度。
  3. 实验结论 - 当前 MLLM 在"连续推理"上比"简单检索"瓶颈更严重; - 细粒度感知、非言语 omni-modal 理解仍是短板。

1.2 方法与可复现性判断

  • 数据构造未在摘要里完全展开,需要核对 PDF 里的"问题模板 + 标注流程 + 评测协议"。
  • CCL 的标注一致性需要看 inter-annotator agreement(待补查)。
  • 与已有 LongVideoBench / Video-MME / LVBench / MLVU 的关系(互补还是覆盖)需在 Section 4/5 核对。

1.3 主要问题 / 风险

  • 领域分布偏向:54 子类是否覆盖"屏幕录制、监控、UGC、电影"等真实异构场景,需要看附录分布表。
  • 音频子集噪声:AV 子集的 CCL 12.8 分钟低于 V 子集,说明 ASR/音频标注可能稀释了认知负荷,需要核验。
  • 评测 LLM 自身偏差:用 GPT-4o/Claude 作 judge 是否被题目结构放大效应?需要看 judge 校准曲线。
  • 数据合规:109 分钟级别的 YouTube/Flickr 视频可能存在版权与隐私风险;需查 license。

1.4 可信度与建议

  • 可信度:中高(任务设计有新意,但 benchmark 类工作的真正价值取决于社区是否采用与 leaderboard 是否被污染)。
  • 建议入库:notes/multimodal/video-benchmarks.md 新增一节 "Ultra-Long Video"。
  • 后续验证动作: 1. 下载附录,确认 CCL 标注协议; 2. 与昨日 2026-06-24-VTCBench-MMProLong.md 做对比表,避免重复; 3. 关注 GitHub/HF 数据是否真实放出。

2. AgentRewardBench — Evaluating Automatic Evaluations of Web Agent Trajectories

2.1 核心贡献

  1. 元基准(meta-benchmark)设计 - 1302 条轨迹,覆盖 5 个 web agent benchmark × 4 个 agent LLM。 - 每条由专家标注三个维度:success、side effects、repetitiveness。
  2. 横评 12 个 LLM judge - 核心结论:没有任何单一 LLM judge 在所有 benchmark 上都最优("no single judge excels")。
  3. 批评规则式评估 - 指出 rule-based 评估系统性低估 agent 成功率,强调需要更灵活的自动评估。

2.2 与 flyP 已有产出的关系

  • 2026-06-24-afternoon-read-Agent-as-a-Judge-survey-critical.md 形成"理论谱系 → 元基准实例"对位:
  • 上一篇是 survey,本篇是具体 benchmark。
  • 2026-06-24-morning-read-WeaveBench-CUA-hybrid-trajectory-judge.md
  • WeaveBench 关心"agent 作为 judge 评 CUA 轨迹";
  • 本篇关心"LLM 作为 judge 评 web agent 轨迹"。
  • 二者可合并入"轨迹评估 / agent-as-judge"主题页。

2.3 主要问题 / 风险

  • 基准老化风险:v2 是 2025-10 发布,但其包含的"5 个 benchmark"如果是 2024 年初的,可能已经不能代表当前 SOTA agent 行为模式。
  • 标注主观性:side effects 与 repetitiveness 是相对主观维度,需要看标注员背景与一致性 κ 值(待补查)。
  • 评测范围局限:仅 web agent,未覆盖 GUI / 桌面 / 编程 / 长任务 agent;不能直接外推到 OS-level CUA。
  • 潜在循环依赖:用 LLM judge 评 LLM agent,两端都用 GPT-4 系时存在同源偏差。

2.4 可信度与建议

  • 可信度:中高(meta-benchmark 设计规范,但 1302 条样本对 5 个领域来说分布仍偏稀)。
  • 建议入库:
  • notes/agents/evaluation.md 增补 "Meta-benchmark for LLM judges" 一节;
  • 与 WeaveBench / Agent-as-a-Judge survey 形成三角引用。
  • 后续验证动作: 1. 跑一遍 leaderboard 与代码,看 judge 评分分布; 2. 把它的 12 个 judge 模型与 flyP 当前在用的评估器做映射表。

3. 总结与下一步

维度 VideoOdyssey AgentRewardBench
主题 长视频 MLLM 评测 Web Agent 的 LLM judge 元基准
与 flyP 既有产出互补度 高(多模态长视频主题) 高(Agent-as-Judge 主题)
是否建议精读 ✅ 建议 ✅ 建议
建议路径 notes/multimodal/video-benchmarks.md notes/agents/evaluation.md
  • 本次产出:1 篇组合短审稿。
  • 实际写入:/shared/research-kb/inbox/flyp/2026-06-25-afternoon-read-VideoOdyssey-AgentRewardBench-short-reviews.md
  • 不执行 git 写入;建议由同步任务在 review/ 串行合并。
  • 待补查项已在每节内标注。