Thinking with Video 短审稿 · 2026-06-17
- 整理人:flyP
- 整理时间:2026-06-17 23:25 (Asia/Shanghai)
- 任务:周六精读与反方审稿 · 续(本周反方审稿清单第 4 篇)
- 立场:反方 / 审稿人
- 来源:arXiv abstract + 项目页 + Hugging Face Papers + Emergent Mind 摘要(无全文抓取)
0. 元信息
- 论文:Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
- arXiv:2511.04570 v2(cs.CV / cs.CL)
- 项目页:https://thinking-with-video.github.io
- 数据集:VideoThinkBench 已在 ModelScope 公开(https://modelscope.cn/datasets/openmoss/VideoThinkBench)
- HF Papers:https://huggingface.co/papers/2511.04570
1. 贡献主张(作者怎么说)
- 提出新范式 "Thinking with Video":用视频生成模型(以 Sora-2 为代表)作为"统一多模态推理媒介"
- 配套发布 VideoThinkBench,覆盖两类任务:
- 视觉中心任务:Eyeballing Puzzles
- 文本中心任务:GSM8K、MMMU
- 三个 headline 数字: 1. Sora-2 在 Eyeballing Puzzle 上超 GPT-5 10%(显著差) 2. Sora-2 在 MMMU 上达到 69%(对生成模型而言极高) 3. "thinking with video" 是 统一理解+生成的潜在统一范式
2. 反方核心拷问
2.1 Sora-2 "vs GPT-5 10%" 的可比性
- Sora-2 跑的是视频生成任务,从提示生成多帧再读出答案;GPT-5 跑的是纯文本/图像任务,模态不对等
- 公平对照应是:Sora-2 的视频推理 vs VLMs 看 16-32 帧的 "video understanding"(GPT-4o、Gemini-3.1-Video、Qwen3.6-VL 等)
- 没有看到作者在 v1/v2 abstract 中明确这个对照,这 10% 是 cherry-picked framing 的高风险
- ⚠️ 标记:待补查 v2 全文对照实验
2.2 MMMU 69% 的解读
- MMMU 是多模态理解基准,不是为"生成模型先渲染再读答案"设计的
- 一个可能解释:Sora-2 在生成的视频里无意暴露了答案——比如题面问"几何面积",Sora-2 渲染几何图时会主动把辅助线、网格加上,等于把答案给了自己
- 这种"渲染中无意泄露答案"是生成模型的系统性捷径,论文必须显式 ablate
- ❓ 标记:待补查 v2 是否做 "answer leakage" 控制
2.3 "thinking" 这个词被滥用
- "Thinking with X" 这个范式名词家族现在爆炸:Thinking with Text(CoT)、Thinking with Images(Visual CoT)、Thinking with Video
- 反方观点:Sora-2 并没有 "think",它在 generate,所谓"用视频帧作为推理媒介"更像是"用生成代替检索/感知"
- 这不是新范式,而是生成模型的系统 2 替代路径,论文应在术语上保持克制
2.4 VideoThinkBench 的覆盖度
- GSM8K + MMMU + Eyeballing Puzzle 这三类任务的代表性不足
- 缺:多步物理推理、符号推理、时间序列因果、视频长上下文(>10 分钟)
- 数据集已开源(ModelScope)是加分项,但评测协议细节(prompt 模板、是否允许 frame sampling 策略、超参)没在摘要里说
- ❓ 标记:待补查评测协议
2.5 复现门槛
- 关键依赖 Sora-2 API——OpenAI 闭源,无法本地复现
- 论文若要把结论"开源可复现",至少要给出开源视频生成模型(Wan2.6、HunyuanVideo、CogVideoX2 等)的对照
- ❓ 标记:待补查是否给出开源替代的对比
2.6 算力对等性
- 生成多帧视频做"推理",单次推理成本远超 GPT-5 的 1 次 token 生成
- 论文应在"准确率 vs 推理成本"的曲线上同时报告,否则这个 10% 是用 1000× 算力换来的
- ⚠️ 标记:待补查 cost-normalized 对照
3. 价值判断
- 新颖性:B+——"视频生成作为推理媒介"是个有意思的角度,但术语 "thinking" 借用过度
- 实验严谨性:C+——abstract 数字过于 headline,缺成本/对照/泄漏控制
- 复现门槛:C——依赖 Sora-2 闭源 API,无法在自研环境复现
- 影响力潜力:A-——如果后续工作能复现到开源生成模型,范式叙事的力量很大
4. 整体裁决
- 总评:B-(想法新但证据弱;被简报标题数字掩盖了方法论问题)
- 建议:
1. 主题页
unified-multimodal-reasoning-2026.md收录摘要 + 三个 headline 数字,但必须同步加 "反方风险" 警示 2. 不作为推荐复现(因 Sora-2 闭源) 3. 跟进:等作者放出 v2 全文 + 开源模型对照(预计 2026-07);同时让 spark 评估 Wan2.6 / HunyuanVideo 是否能在类似任务上复现 4. 与本周contextrl-multimodal-longcontext.md(长上下文多模态)、VaLR-vision-aligned-latent-reasoning.md(latent reasoning)合并为"统一多模态推理范式"主题页
5. 待补查清单
- [ ] v2 全文对照实验(开源视频生成模型 vs Sora-2)
- [ ] MMMU "answer leakage" 控制(渲染中是否暴露答案)
- [ ] cost-normalized 对照(准确率 vs 推理成本)
- [ ] VideoThinkBench 评测协议(prompt、frame sampling、超参)
- [ ] v2 修订 changelog(相对 v1 加了什么)
6. 标签
#review #critical-analysis #video-reasoning #thinking-with-video #sora-2 #unified-mllm #benchmark #mmmu #closed-weight-risk #cost-normalized #overclaim-risk
7. 建议写入路径(由 Stephen 同步)
- 本审稿:
/shared/research-kb/inbox/flyp/2026-06-17-thinking-with-video-short-review.md(本文件) - 主题页引用:
research-kb/published/notes/unified-multimodal-reasoning-2026.md(待 Stephen 串行同步) - registry 引用:
research-kb/registry/papers.jsonl→ arXiv:2511.04570 / review: B- / 担忧:可比性 + 答案泄漏 + 算力对等