2026-06-26 下午轻量精读 · LongShOTBench + LongShOTAgent(MBZUAI,omni-modal 长视频)
实例:flyP|时点:15:50 Asia/Shanghai|模式:轻量精读 1 篇(主)+ 1 条副线索(次轮方向) 范围:omni-modal 长视频 benchmark + training-free agent 的协同设计 写入路径:
/shared/research-kb/inbox/flyp/2026-06-26-afternoon-read-LongShOTBench-omni-modal-longvideo.md
主题与检索范围
- 本次主题:在"长视频 + 多模态 + 开放式问答 + 可解释打分"四件事上能不能同时拉满?MBZUAI 给出的答案:LongShOTBench(评测)+ LongShOTAgent(training-free baseline)协同发布,并评了 105 个模型。
- 检索范围:
- arXiv 2512.16978 v2(abs + html v2,2026-06-16 update)
- 项目页 longshot.cvmbzuai.com(SPA,首页未渲染完整 leaderboard,留待补查)
- 未抓全文 PDF;未并行子任务。
- 检索时间:2026-06-26 15:50 Asia/Shanghai
候选条目(筛前 → 留 1 主 + 1 副)
| # | 标题 | arXiv | 入选理由 | 本轮处理 |
|---|---|---|---|---|
| 1 | LongShOTBench + LongShOTAgent: A Benchmark for Omni-Modal Reasoning in Long Videos | 2512.16978v2(2025-12-18 v1 → 2026-06-16 v2,MBZUAI,14 作者) | flyP 主线(多模态 + 长上下文)+ rubric-level 创新 + 105 模型评测规模 | 本轮精读 |
| 2 | From Agent Traces to Trust: A Survey of Evidence Tracing and Execution Provenance in LLM Agents | 2606.04990v3(2026-06-26 v3) | 与上午 AgenticRAG / 本周 WeaveBench / benchjack 形成"评测可信度"闭环 | 副线索,留给下一轮 |
| 3 | SagaQA: Multi-hop Reasoning Benchmark for Long-form Narrative TV Series | 2606.03301 | 长视频推理,但偏 TV series + 剧情,跳过 | — |
高价值条目 · LongShOTBench + LongShOTAgent
- 链接:https://arxiv.org/abs/2512.16978(v2:https://arxiv.org/abs/2512.16978v2;HTML:https://arxiv.org/html/2512.16978v2)
- 作者 / 单位:Mohammed Irfan Kurpath、Jaseel Muhammad Kaithakkodan、Jinxing Zhou、Sahal Shaji Mullappilly、Mohammad Almansoori、Noor Ahsan、Beknur Kalmakhanbet、Sambal Shikhar、Rishabh Lalla、Jean Lahoud、Mariette Awad、Fahad Shahbaz Khan、Salman Khan、Rao Muhammad Anwer、Hisham Cholakkal(MBZUAI + American University of Beirut + Linköping)
- 类别 / 类型:cs.CV|Benchmark + Method(co-design,paper-page 已经隐含 leaderboard 与 code release)
- 代码 / 数据 / leaderboard:摘要与 HTML 均声明
https://longshot.cvmbzuai.com/,首页 SPA 加载不出具体 leaderboard 数字,待补查 - 关键词:omni-modal、long-form video、speech + ambient audio、rubric-level、training-free agent、multi-turn、intent-driven
核心贡献(拆解)
- Benchmark 三目标耦合: - (a) holistic omni-modal integration —— 视觉 + 语音 + ambient audio 同时使用,不是只看视觉或只看字幕语音; - (b) intent-driven open-ended interaction —— 单轮 + 多轮,问句由"观看场景"驱动,不靠模板; - (c) rubric-level diagnosis —— 每条 item 同时给出 reference answer 和 weighted criterion-level rubric,评测能告诉你模型"漏在哪一类能力"(感知事实 / 时序链接 / 模态对齐要求 / 推理步骤)。
- 评测坐标系:Table 1 把 LongShOTBench 与 VideoOdyssey、LVOmniBench、WorldSense、OmniVideoBench、Daily-Omni、TriSense-2M、LongVALE、Video-MME、InfiniBench、Video-Holmes、MoVQA、LVBench、SVBench、MLVU、MovieChat、LongVideoBench、EgoSchema 等同台对比。LongShOTBench 是唯一同时满足 visual + audio + speech + open-ended + multi-turn + intent-driven + rubrics 七项全打勾的 benchmark(其他最多 3-4 项)。
- 方法(LongShOTAgent):training-free 的 omni-modal evidence-seeking agent。流程是: - full-video preprocessing(一次性把整段视频离线处理成可检索索引) - targeted retrieval(针对问题做粗检索) - query-adaptive segment refinement(按问题精修片段) - explicit claim verification(在视觉 / 语音 / 非语音音频证据上做显式 claim 校验) - iterative search → refine → verify 循环,且会调用 modality-specific specialists 重新分析关键片段。
- 评测规模:105 个 video-capable 模型,覆盖开源 omni-modal、VLM、Audio LLM、agentic pipeline、闭源 API(评测广度足够)。
- 主结果:LongShOTAgent = 66.64% overall,是 training-free 阵营的 SOTA。摘要原话:"current MLLMs remain far from saturating LongShOTBench"。
方法可复现性判断
| 维度 | 判断 | 备注 |
|---|---|---|
| Benchmark 发布 | 高 | 摘要 + HTML 都声明 release 在 longshot.cvmbzuai.com;首页能打开但 SPA 未渲染表格,待补查数据规模 / 视频来源 / 许可 |
| Rubric 设计 | 中 | 摘要级别描述清楚(weighted criterion-level);具体权重来源、inter-annotator agreement 没在摘要中给 |
| Agent 代码 | 中 | training-free 利好复现;但 full-video preprocessing 在 1-2 小时长视频上的成本、检索栈选择、specialists 集合未在摘要披露 |
| 105 模型评测 | 高 | 模型清单 / 评测脚本理应随项目页发布;待补查 |
| 与 LLM-judge 关系 | 中 | 摘要强调 rubric-level,但 rubric 怎么"自动打分"没说清;要么 LLM-judge,要么人工,要么 hybrid —— 三种都会影响可比性 |
| 工程成本 | 中-高 | full-video preprocessing 一次成本高;multi-turn + rubric + multi-modal 多轮推理,整体 token / GPU 小时数不容忽视 |
主要问题 / 风险
- Rubric 评分的"客观性":weighted criterion-level rubric 的权重是人工标还是 LLM 自动分配?如果是 LLM,rubric 自身的可信度就回到 LLM-judge 老问题。摘要没明确,需要看正文。
- 数据集规模与版权:homepage 没渲染出来,视频来源、license、是否会因为 YouTube 等版权被下这点没核。建议下轮手动抓 longshot.cvmbzuai.com 的 dataset / FAQ 页面或 GitHub(如有)。
- 评测可比性:105 模型来自不同时间、不同 prompt、不同 context budget。如果不锁 harness,"harness multiplier"(同行近期常引用的术语)会让 leaderboard 数字无法直接横向对比。这是 long-video QA 的通病。
- LongShOTAgent 是作者团队自己的方法:基准与方法 co-design 容易出现"题目偏好自己的方法"——比如 rubric 设计可能恰好与 search-refine-verify loop 的中间产物对齐。需要看是否有"作者方法被剥离后是否仍领先"的对照组(可以看 ablation 章节)。
- 多模态 specialists 的来源:vision specialist / audio specialist / speech specialist 用的是哪些开源 MLLM(Qwen2.5-Omni?Gemini?Whisper?AV-HuBERT?)?摘要未披露。
- 与同期长视频评测重叠:6/12 我已经精读过 LongVideoAgent(ACL 2026)、LongVidSearch、LongVALE、VideoOdyssey 等;本基准在评测粒度上更细(rubric + multi-turn),但它是不是把"难度"推到无法验证的水平?66.64% training-free SOTA + "far from saturating" 这两个说法同时出现,留心"benchmark 是否过难"。
- v2 vs v1 diff 未在摘要级说明:HTML 文件小了约 400 KB。可能是更新了评测集 / leaderboard / appendix。需在下次读 PDF 时核。
- 作者机构集中度:14 位作者中 11 位在 MBZUAI,是 Salman Khan 团队主线工作;本身不是 red flag,但需关注外部独立复现。
与本周其他稿的关系
- vs LongVideoAgent(我 6/12 精读稿
2026-06-12-longvideoagent.md):LongVideoAgent 是 multi-agent + RL training(master / grounding / vision agent),而 LongShOTAgent 是 training-free + search-refine-verify。两者定位互补,正好说明长视频 QA 正在从"训练一个 agent"转向"组合一个 pipeline"。 - vs LongVidSearch / Overthinking(6/23 精读稿
2026-06-23-afternoon-read-LongVidSearch-Overthinking.md):那篇关注的是"长视频检索的 overthinking 问题",与本文"训练-free 检索循环"是同一焦虑——结构上存在 over-refine 的隐患。 - vs WeaveBench / Agent-as-a-Judge / benchjack(本周 agent 可信度三条线):本基准的 rubric-level 设计与"评测可信度"主题呼应。下次可与 Agent Traces to Trust survey 一并写"评测可信度周报"。
可信度与建议
- 可信度:中-高。MBZUAI 是视频理解老牌团队(Salman Khan 团队出过 Video-MME、Video-ChatGPT 等),benchmark + agent co-design 在这个组里是常见模式;但 rubric 自动打分 + 105 模型评测的细节未在摘要披露,需补查。
- 建议入库:
notes/multimodal/long-video-omni-modal-benchmarks.md(新建)—— 把本周看过的 LongShOTBench / LongVideoAgent / LongVALE / VideoOdyssey / Video-MME 排一张统一的"长视频评测坐标系表",避免分散。reviews/2026-06-longshotbench-mbzuai.md(短审稿)- 后续验证动作(按"短审稿"留 4 项,避免堆太多): 1. 抓 longshot.cvmbzuai.com 的 dataset / FAQ / leaderboard 页面,确认视频来源、规模、license、是否提供 code; 2. 核 PDF 中 rubric 自动打分机制(LLM-judge / 人工 / hybrid)+ inter-annotator agreement; 3. 核 v1→v2 的 diff(评测集是否扩容 / 模型列表更新 / 新增 appendix); 4. 与 Agent Traces to Trust(2606.04990v3,下一轮候选)放一起讨论"评测可信度"。
副线索(按任务规则留待后续,避免本轮扩展)
- From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents(arXiv 2606.04990v3,2026-06-26 v3)
- 把"agent 执行追踪 → 可信"整理成 unified provenance graph,覆盖 retrieval grounding / claim support / tool-use safety / memory lineage / observability / debugging / audit / recovery。
- 与本轮 rubric-level 打分、上午 AgenticRAG、本周 WeaveBench / benchjack / Agent-as-a-Judge 共同指向"agent 评测可信度"主题。
- 建议作为下轮主读,并产出
notes/agents/agent-evaluation-trust.md主题页。
分类标签 / 建议写入路径
- 标签:
multimodal、long-video、omni-modal、benchmark、training-free-agent、rubric-evaluation、mbzuai、short-review - 建议路径(GitHub 草稿,待同步任务串行合并):
notes/multimodal/long-video-omni-modal-benchmarks.mdreviews/2026-06-longshotbench-mbzuai.md
是否需要精读 / 审稿 / 主题页更新
- 本次:完成 1 篇短审稿 ✅(主:LongShOTBench;副线索记录)
- 主题页建议更新:
notes/multimodal/下新建"长视频评测坐标系"主题页(合并本周 LongShOTBench / LongVideoAgent / LongVALE / VideoOdyssey / Video-MME)。- 下次方向候选:
- From Agent Traces to Trust(2606.04990v3)—— agent 评测可信度主题收尾;
- SagaQA(2606.03301)—— 长视频多跳剧情推理,与 LongShOTBench 形成"叙事 vs 信息"对照;
- LongShOTBench rubric 细节补查。
元信息
- 本次工具调用:2 次 web_search + 2 次 web_fetch(abs + html v2 + homepage),未抓全文 PDF,未并行子任务,符合轻量精读约束。
- 本实例草稿目录:
/shared/research-kb/inbox/flyp/ - 已写入:
/shared/research-kb/inbox/flyp/2026-06-26-afternoon-read-LongShOTBench-omni-modal-longvideo.md - 未执行:git commit / git push / gh pr / 写入 review/ 或 published/
- 待补查(不阻塞本轮):leaderboard 数字、v1→v2 diff、rubric 自动打分机制、数据集 license