2026-06-26 下午轻量精读 · LongShOTBench + LongShOTAgent（MBZUAI，omni-modal 长视频）

实例：flyP｜时点：15:50 Asia/Shanghai｜模式：轻量精读 1 篇（主）+ 1 条副线索（次轮方向）范围：omni-modal 长视频 benchmark + training-free agent 的协同设计写入路径：/shared/research-kb/inbox/flyp/2026-06-26-afternoon-read-LongShOTBench-omni-modal-longvideo.md

主题与检索范围

本次主题：在"长视频 + 多模态 + 开放式问答 + 可解释打分"四件事上能不能同时拉满？MBZUAI 给出的答案：LongShOTBench（评测）+ LongShOTAgent（training-free baseline）协同发布，并评了 105 个模型。
检索范围：
arXiv 2512.16978 v2（abs + html v2，2026-06-16 update）
项目页 longshot.cvmbzuai.com（SPA，首页未渲染完整 leaderboard，留待补查）
未抓全文 PDF；未并行子任务。
检索时间：2026-06-26 15:50 Asia/Shanghai

候选条目（筛前 → 留 1 主 + 1 副）

#	标题	arXiv	入选理由	本轮处理
1	LongShOTBench + LongShOTAgent: A Benchmark for Omni-Modal Reasoning in Long Videos	2512.16978v2（2025-12-18 v1 → 2026-06-16 v2，MBZUAI，14 作者）	flyP 主线（多模态 + 长上下文）+ rubric-level 创新 + 105 模型评测规模	本轮精读
2	From Agent Traces to Trust: A Survey of Evidence Tracing and Execution Provenance in LLM Agents	2606.04990v3（2026-06-26 v3）	与上午 AgenticRAG / 本周 WeaveBench / benchjack 形成"评测可信度"闭环	副线索，留给下一轮
3	SagaQA: Multi-hop Reasoning Benchmark for Long-form Narrative TV Series	2606.03301	长视频推理，但偏 TV series + 剧情，跳过	—

高价值条目 · LongShOTBench + LongShOTAgent

链接：https://arxiv.org/abs/2512.16978（v2：https://arxiv.org/abs/2512.16978v2；HTML：https://arxiv.org/html/2512.16978v2）
作者 / 单位：Mohammed Irfan Kurpath、Jaseel Muhammad Kaithakkodan、Jinxing Zhou、Sahal Shaji Mullappilly、Mohammad Almansoori、Noor Ahsan、Beknur Kalmakhanbet、Sambal Shikhar、Rishabh Lalla、Jean Lahoud、Mariette Awad、Fahad Shahbaz Khan、Salman Khan、Rao Muhammad Anwer、Hisham Cholakkal（MBZUAI + American University of Beirut + Linköping）
类别 / 类型：cs.CV｜Benchmark + Method（co-design，paper-page 已经隐含 leaderboard 与 code release）
代码 / 数据 / leaderboard：摘要与 HTML 均声明 https://longshot.cvmbzuai.com/，首页 SPA 加载不出具体 leaderboard 数字，待补查
关键词：omni-modal、long-form video、speech + ambient audio、rubric-level、training-free agent、multi-turn、intent-driven

核心贡献（拆解）

Benchmark 三目标耦合： - (a) holistic omni-modal integration —— 视觉 + 语音 + ambient audio 同时使用，不是只看视觉或只看字幕语音； - (b) intent-driven open-ended interaction —— 单轮 + 多轮，问句由"观看场景"驱动，不靠模板； - (c) rubric-level diagnosis —— 每条 item 同时给出 reference answer 和 weighted criterion-level rubric，评测能告诉你模型"漏在哪一类能力"（感知事实 / 时序链接 / 模态对齐要求 / 推理步骤）。
评测坐标系：Table 1 把 LongShOTBench 与 VideoOdyssey、LVOmniBench、WorldSense、OmniVideoBench、Daily-Omni、TriSense-2M、LongVALE、Video-MME、InfiniBench、Video-Holmes、MoVQA、LVBench、SVBench、MLVU、MovieChat、LongVideoBench、EgoSchema 等同台对比。LongShOTBench 是唯一同时满足 visual + audio + speech + open-ended + multi-turn + intent-driven + rubrics 七项全打勾的 benchmark（其他最多 3-4 项）。
方法（LongShOTAgent）：training-free 的 omni-modal evidence-seeking agent。流程是： - full-video preprocessing（一次性把整段视频离线处理成可检索索引） - targeted retrieval（针对问题做粗检索） - query-adaptive segment refinement（按问题精修片段） - explicit claim verification（在视觉 / 语音 / 非语音音频证据上做显式 claim 校验） - iterative search → refine → verify 循环，且会调用 modality-specific specialists 重新分析关键片段。
评测规模：105 个 video-capable 模型，覆盖开源 omni-modal、VLM、Audio LLM、agentic pipeline、闭源 API（评测广度足够）。
主结果：LongShOTAgent = 66.64% overall，是 training-free 阵营的 SOTA。摘要原话："current MLLMs remain far from saturating LongShOTBench"。

方法可复现性判断

维度	判断	备注
Benchmark 发布	高	摘要 + HTML 都声明 release 在 longshot.cvmbzuai.com；首页能打开但 SPA 未渲染表格，待补查数据规模 / 视频来源 / 许可
Rubric 设计	中	摘要级别描述清楚（weighted criterion-level）；具体权重来源、inter-annotator agreement 没在摘要中给
Agent 代码	中	training-free 利好复现；但 full-video preprocessing 在 1-2 小时长视频上的成本、检索栈选择、specialists 集合未在摘要披露
105 模型评测	高	模型清单 / 评测脚本理应随项目页发布；待补查
与 LLM-judge 关系	中	摘要强调 rubric-level，但 rubric 怎么"自动打分"没说清；要么 LLM-judge，要么人工，要么 hybrid —— 三种都会影响可比性
工程成本	中-高	full-video preprocessing 一次成本高；multi-turn + rubric + multi-modal 多轮推理，整体 token / GPU 小时数不容忽视

主要问题 / 风险

Rubric 评分的"客观性"：weighted criterion-level rubric 的权重是人工标还是 LLM 自动分配？如果是 LLM，rubric 自身的可信度就回到 LLM-judge 老问题。摘要没明确，需要看正文。
数据集规模与版权：homepage 没渲染出来，视频来源、license、是否会因为 YouTube 等版权被下这点没核。建议下轮手动抓 longshot.cvmbzuai.com 的 dataset / FAQ 页面或 GitHub（如有）。
评测可比性：105 模型来自不同时间、不同 prompt、不同 context budget。如果不锁 harness，"harness multiplier"（同行近期常引用的术语）会让 leaderboard 数字无法直接横向对比。这是 long-video QA 的通病。
LongShOTAgent 是作者团队自己的方法：基准与方法 co-design 容易出现"题目偏好自己的方法"——比如 rubric 设计可能恰好与 search-refine-verify loop 的中间产物对齐。需要看是否有"作者方法被剥离后是否仍领先"的对照组（可以看 ablation 章节）。
多模态 specialists 的来源：vision specialist / audio specialist / speech specialist 用的是哪些开源 MLLM（Qwen2.5-Omni？Gemini？Whisper？AV-HuBERT？）？摘要未披露。
与同期长视频评测重叠：6/12 我已经精读过 LongVideoAgent（ACL 2026）、LongVidSearch、LongVALE、VideoOdyssey 等；本基准在评测粒度上更细（rubric + multi-turn），但它是不是把"难度"推到无法验证的水平？66.64% training-free SOTA + "far from saturating" 这两个说法同时出现，留心"benchmark 是否过难"。
v2 vs v1 diff 未在摘要级说明：HTML 文件小了约 400 KB。可能是更新了评测集 / leaderboard / appendix。需在下次读 PDF 时核。
作者机构集中度：14 位作者中 11 位在 MBZUAI，是 Salman Khan 团队主线工作；本身不是 red flag，但需关注外部独立复现。

与本周其他稿的关系

vs LongVideoAgent（我 6/12 精读稿 2026-06-12-longvideoagent.md）：LongVideoAgent 是 multi-agent + RL training（master / grounding / vision agent），而 LongShOTAgent 是 training-free + search-refine-verify。两者定位互补，正好说明长视频 QA 正在从"训练一个 agent"转向"组合一个 pipeline"。
vs LongVidSearch / Overthinking（6/23 精读稿 2026-06-23-afternoon-read-LongVidSearch-Overthinking.md）：那篇关注的是"长视频检索的 overthinking 问题"，与本文"训练-free 检索循环"是同一焦虑——结构上存在 over-refine 的隐患。
vs WeaveBench / Agent-as-a-Judge / benchjack（本周 agent 可信度三条线）：本基准的 rubric-level 设计与"评测可信度"主题呼应。下次可与 Agent Traces to Trust survey 一并写"评测可信度周报"。

可信度与建议

可信度：中-高。MBZUAI 是视频理解老牌团队（Salman Khan 团队出过 Video-MME、Video-ChatGPT 等），benchmark + agent co-design 在这个组里是常见模式；但 rubric 自动打分 + 105 模型评测的细节未在摘要披露，需补查。
建议入库：
notes/multimodal/long-video-omni-modal-benchmarks.md（新建）—— 把本周看过的 LongShOTBench / LongVideoAgent / LongVALE / VideoOdyssey / Video-MME 排一张统一的"长视频评测坐标系表"，避免分散。
reviews/2026-06-longshotbench-mbzuai.md（短审稿）
后续验证动作（按"短审稿"留 4 项，避免堆太多）： 1. 抓 longshot.cvmbzuai.com 的 dataset / FAQ / leaderboard 页面，确认视频来源、规模、license、是否提供 code； 2. 核 PDF 中 rubric 自动打分机制（LLM-judge / 人工 / hybrid）+ inter-annotator agreement； 3. 核 v1→v2 的 diff（评测集是否扩容 / 模型列表更新 / 新增 appendix）； 4. 与 Agent Traces to Trust（2606.04990v3，下一轮候选）放一起讨论"评测可信度"。

副线索（按任务规则留待后续，避免本轮扩展）

From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents（arXiv 2606.04990v3，2026-06-26 v3）
把"agent 执行追踪 → 可信"整理成 unified provenance graph，覆盖 retrieval grounding / claim support / tool-use safety / memory lineage / observability / debugging / audit / recovery。
与本轮 rubric-level 打分、上午 AgenticRAG、本周 WeaveBench / benchjack / Agent-as-a-Judge 共同指向"agent 评测可信度"主题。
建议作为下轮主读，并产出 notes/agents/agent-evaluation-trust.md 主题页。

分类标签 / 建议写入路径

标签：multimodal、long-video、omni-modal、benchmark、training-free-agent、rubric-evaluation、mbzuai、short-review
建议路径（GitHub 草稿，待同步任务串行合并）：
notes/multimodal/long-video-omni-modal-benchmarks.md
reviews/2026-06-longshotbench-mbzuai.md

是否需要精读 / 审稿 / 主题页更新

本次：完成 1 篇短审稿 ✅（主：LongShOTBench；副线索记录）
主题页建议更新：
notes/multimodal/ 下新建"长视频评测坐标系"主题页（合并本周 LongShOTBench / LongVideoAgent / LongVALE / VideoOdyssey / Video-MME）。
下次方向候选：
From Agent Traces to Trust（2606.04990v3）—— agent 评测可信度主题收尾；
SagaQA（2606.03301）—— 长视频多跳剧情推理，与 LongShOTBench 形成"叙事 vs 信息"对照；
LongShOTBench rubric 细节补查。

元信息

本次工具调用：2 次 web_search + 2 次 web_fetch（abs + html v2 + homepage），未抓全文 PDF，未并行子任务，符合轻量精读约束。
本实例草稿目录：/shared/research-kb/inbox/flyp/
已写入：/shared/research-kb/inbox/flyp/2026-06-26-afternoon-read-LongShOTBench-omni-modal-longvideo.md
未执行：git commit / git push / gh pr / 写入 review/ 或 published/
待补查（不阻塞本轮）：leaderboard 数字、v1→v2 diff、rubric 自动打分机制、数据集 license