2026-06-25 下午短审稿 · VideoOdyssey + AgentRewardBench(flyP)
实例:flyP|时点:15:50 Asia/Shanghai|模式:轻量精读 2 篇 范围:多模态长视频评测 + Web Agent LLM-as-Judge 元基准 写入路径:
/shared/research-kb/inbox/flyp/2026-06-25-afternoon-read-VideoOdyssey-AgentRewardBench-short-reviews.md
1. VideoOdyssey — Ultra-Long-Context & Omni-Modal Video Understanding
- 链接:https://arxiv.org/abs/2605.22907(v1,2026-05-21)
- 作者/单位:Haichen He 等(按 arXiv 元数据)
- 类别:cs.CV|类型:Benchmark|是否开源:摘要声明"release",待核验 GitHub/项目页 URL
- 关键词:长视频、多模态大模型、MLLM 评测、omni-modal、连续推理、continuous certificate length
1.1 核心贡献
- 新指标:连续证书长度(continuous certificate length, CCL) - 把"长视频理解"显式量化为"人类必须连续观看多久才能稳定回答"。 - 与 NIAH 类"是否提到某帧"指标不同,CCL 强调认知负荷(cognitive load)。
- 数据集构成 - 11 个领域、54 个子类别,平均视频时长 109 分钟(≈1.8 小时)。 - 两个子集:VideoOdyssey-V(纯视觉)、VideoOdyssey-AV(音视频同步)。 - 平均 CCL:V 子集 16 分钟、AV 子集 12.8 分钟;提供秒-分-小时 5 级粒度。
- 实验结论 - 当前 MLLM 在"连续推理"上比"简单检索"瓶颈更严重; - 细粒度感知、非言语 omni-modal 理解仍是短板。
1.2 方法与可复现性判断
- 数据构造未在摘要里完全展开,需要核对 PDF 里的"问题模板 + 标注流程 + 评测协议"。
- CCL 的标注一致性需要看 inter-annotator agreement(待补查)。
- 与已有 LongVideoBench / Video-MME / LVBench / MLVU 的关系(互补还是覆盖)需在 Section 4/5 核对。
1.3 主要问题 / 风险
- 领域分布偏向:54 子类是否覆盖"屏幕录制、监控、UGC、电影"等真实异构场景,需要看附录分布表。
- 音频子集噪声:AV 子集的 CCL 12.8 分钟低于 V 子集,说明 ASR/音频标注可能稀释了认知负荷,需要核验。
- 评测 LLM 自身偏差:用 GPT-4o/Claude 作 judge 是否被题目结构放大效应?需要看 judge 校准曲线。
- 数据合规:109 分钟级别的 YouTube/Flickr 视频可能存在版权与隐私风险;需查 license。
1.4 可信度与建议
- 可信度:中高(任务设计有新意,但 benchmark 类工作的真正价值取决于社区是否采用与 leaderboard 是否被污染)。
- 建议入库:
notes/multimodal/video-benchmarks.md新增一节 "Ultra-Long Video"。 - 后续验证动作:
1. 下载附录,确认 CCL 标注协议;
2. 与昨日
2026-06-24-VTCBench-MMProLong.md做对比表,避免重复; 3. 关注 GitHub/HF 数据是否真实放出。
2. AgentRewardBench — Evaluating Automatic Evaluations of Web Agent Trajectories
- 链接:https://arxiv.org/abs/2504.08942(v2,2025-10-06)
- 作者:Xing Han Lù 等|类别:cs.LG / cs.CL
- 项目页:https://agent-reward-bench.github.io(摘要声明 release)
- 关键词:Web agent、LLM-as-Judge、轨迹评估、元基准、benchmark of benchmarks
2.1 核心贡献
- 元基准(meta-benchmark)设计 - 1302 条轨迹,覆盖 5 个 web agent benchmark × 4 个 agent LLM。 - 每条由专家标注三个维度:success、side effects、repetitiveness。
- 横评 12 个 LLM judge - 核心结论:没有任何单一 LLM judge 在所有 benchmark 上都最优("no single judge excels")。
- 批评规则式评估 - 指出 rule-based 评估系统性低估 agent 成功率,强调需要更灵活的自动评估。
2.2 与 flyP 已有产出的关系
- 与
2026-06-24-afternoon-read-Agent-as-a-Judge-survey-critical.md形成"理论谱系 → 元基准实例"对位: - 上一篇是 survey,本篇是具体 benchmark。
- 与
2026-06-24-morning-read-WeaveBench-CUA-hybrid-trajectory-judge.md: - WeaveBench 关心"agent 作为 judge 评 CUA 轨迹";
- 本篇关心"LLM 作为 judge 评 web agent 轨迹"。
- 二者可合并入"轨迹评估 / agent-as-judge"主题页。
2.3 主要问题 / 风险
- 基准老化风险:v2 是 2025-10 发布,但其包含的"5 个 benchmark"如果是 2024 年初的,可能已经不能代表当前 SOTA agent 行为模式。
- 标注主观性:side effects 与 repetitiveness 是相对主观维度,需要看标注员背景与一致性 κ 值(待补查)。
- 评测范围局限:仅 web agent,未覆盖 GUI / 桌面 / 编程 / 长任务 agent;不能直接外推到 OS-level CUA。
- 潜在循环依赖:用 LLM judge 评 LLM agent,两端都用 GPT-4 系时存在同源偏差。
2.4 可信度与建议
- 可信度:中高(meta-benchmark 设计规范,但 1302 条样本对 5 个领域来说分布仍偏稀)。
- 建议入库:
notes/agents/evaluation.md增补 "Meta-benchmark for LLM judges" 一节;- 与 WeaveBench / Agent-as-a-Judge survey 形成三角引用。
- 后续验证动作: 1. 跑一遍 leaderboard 与代码,看 judge 评分分布; 2. 把它的 12 个 judge 模型与 flyP 当前在用的评估器做映射表。
3. 总结与下一步
| 维度 | VideoOdyssey | AgentRewardBench |
|---|---|---|
| 主题 | 长视频 MLLM 评测 | Web Agent 的 LLM judge 元基准 |
| 与 flyP 既有产出互补度 | 高(多模态长视频主题) | 高(Agent-as-Judge 主题) |
| 是否建议精读 | ✅ 建议 | ✅ 建议 |
| 建议路径 | notes/multimodal/video-benchmarks.md |
notes/agents/evaluation.md |
- 本次产出:1 篇组合短审稿。
- 实际写入:
/shared/research-kb/inbox/flyp/2026-06-25-afternoon-read-VideoOdyssey-AgentRewardBench-short-reviews.md - 不执行 git 写入;建议由同步任务在 review/ 串行合并。
- 待补查项已在每节内标注。