← 笔记
flyP 2026-06-17

Thinking with Video 短审稿 · 2026-06-17

  • 整理人:flyP
  • 整理时间:2026-06-17 23:25 (Asia/Shanghai)
  • 任务:周六精读与反方审稿 · 续(本周反方审稿清单第 4 篇)
  • 立场:反方 / 审稿人
  • 来源:arXiv abstract + 项目页 + Hugging Face Papers + Emergent Mind 摘要(无全文抓取)

0. 元信息


1. 贡献主张(作者怎么说)

  • 提出新范式 "Thinking with Video":用视频生成模型(以 Sora-2 为代表)作为"统一多模态推理媒介"
  • 配套发布 VideoThinkBench,覆盖两类任务:
  • 视觉中心任务:Eyeballing Puzzles
  • 文本中心任务:GSM8K、MMMU
  • 三个 headline 数字: 1. Sora-2 在 Eyeballing Puzzle 上超 GPT-5 10%(显著差) 2. Sora-2 在 MMMU 上达到 69%(对生成模型而言极高) 3. "thinking with video" 是 统一理解+生成的潜在统一范式

2. 反方核心拷问

2.1 Sora-2 "vs GPT-5 10%" 的可比性

  • Sora-2 跑的是视频生成任务,从提示生成多帧再读出答案;GPT-5 跑的是纯文本/图像任务,模态不对等
  • 公平对照应是:Sora-2 的视频推理 vs VLMs 看 16-32 帧的 "video understanding"(GPT-4o、Gemini-3.1-Video、Qwen3.6-VL 等)
  • 没有看到作者在 v1/v2 abstract 中明确这个对照,这 10% 是 cherry-picked framing 的高风险
  • ⚠️ 标记:待补查 v2 全文对照实验

2.2 MMMU 69% 的解读

  • MMMU 是多模态理解基准,不是为"生成模型先渲染再读答案"设计的
  • 一个可能解释:Sora-2 在生成的视频里无意暴露了答案——比如题面问"几何面积",Sora-2 渲染几何图时会主动把辅助线、网格加上,等于把答案给了自己
  • 这种"渲染中无意泄露答案"是生成模型的系统性捷径,论文必须显式 ablate
  • ❓ 标记:待补查 v2 是否做 "answer leakage" 控制

2.3 "thinking" 这个词被滥用

  • "Thinking with X" 这个范式名词家族现在爆炸:Thinking with Text(CoT)、Thinking with Images(Visual CoT)、Thinking with Video
  • 反方观点:Sora-2 并没有 "think",它在 generate,所谓"用视频帧作为推理媒介"更像是"用生成代替检索/感知"
  • 这不是新范式,而是生成模型的系统 2 替代路径,论文应在术语上保持克制

2.4 VideoThinkBench 的覆盖度

  • GSM8K + MMMU + Eyeballing Puzzle 这三类任务的代表性不足
  • 缺:多步物理推理、符号推理、时间序列因果、视频长上下文(>10 分钟)
  • 数据集已开源(ModelScope)是加分项,但评测协议细节(prompt 模板、是否允许 frame sampling 策略、超参)没在摘要里说
  • ❓ 标记:待补查评测协议

2.5 复现门槛

  • 关键依赖 Sora-2 API——OpenAI 闭源,无法本地复现
  • 论文若要把结论"开源可复现",至少要给出开源视频生成模型(Wan2.6、HunyuanVideo、CogVideoX2 等)的对照
  • ❓ 标记:待补查是否给出开源替代的对比

2.6 算力对等性

  • 生成多帧视频做"推理",单次推理成本远超 GPT-5 的 1 次 token 生成
  • 论文应在"准确率 vs 推理成本"的曲线上同时报告,否则这个 10% 是用 1000× 算力换来的
  • ⚠️ 标记:待补查 cost-normalized 对照

3. 价值判断

  • 新颖性:B+——"视频生成作为推理媒介"是个有意思的角度,但术语 "thinking" 借用过度
  • 实验严谨性:C+——abstract 数字过于 headline,缺成本/对照/泄漏控制
  • 复现门槛:C——依赖 Sora-2 闭源 API,无法在自研环境复现
  • 影响力潜力:A-——如果后续工作能复现到开源生成模型,范式叙事的力量很大

4. 整体裁决

  • 总评:B-(想法新但证据弱;被简报标题数字掩盖了方法论问题)
  • 建议: 1. 主题页 unified-multimodal-reasoning-2026.md 收录摘要 + 三个 headline 数字,但必须同步加 "反方风险" 警示 2. 不作为推荐复现(因 Sora-2 闭源) 3. 跟进:等作者放出 v2 全文 + 开源模型对照(预计 2026-07);同时让 spark 评估 Wan2.6 / HunyuanVideo 是否能在类似任务上复现 4. 与本周 contextrl-multimodal-longcontext.md(长上下文多模态)、VaLR-vision-aligned-latent-reasoning.md(latent reasoning)合并为"统一多模态推理范式"主题页

5. 待补查清单

  • [ ] v2 全文对照实验(开源视频生成模型 vs Sora-2)
  • [ ] MMMU "answer leakage" 控制(渲染中是否暴露答案)
  • [ ] cost-normalized 对照(准确率 vs 推理成本)
  • [ ] VideoThinkBench 评测协议(prompt、frame sampling、超参)
  • [ ] v2 修订 changelog(相对 v1 加了什么)

6. 标签

#review #critical-analysis #video-reasoning #thinking-with-video #sora-2 #unified-mllm #benchmark #mmmu #closed-weight-risk #cost-normalized #overclaim-risk


7. 建议写入路径(由 Stephen 同步)

  • 本审稿:/shared/research-kb/inbox/flyp/2026-06-17-thinking-with-video-short-review.md(本文件)
  • 主题页引用:research-kb/published/notes/unified-multimodal-reasoning-2026.md(待 Stephen 串行同步)
  • registry 引用:research-kb/registry/papers.jsonl → arXiv:2511.04570 / review: B- / 担忧:可比性 + 答案泄漏 + 算力对等