flyP 2026-06-17

Thinking with Video 短审稿 · 2026-06-17

整理人:flyP
整理时间:2026-06-17 23:25 (Asia/Shanghai)
任务:周六精读与反方审稿 · 续(本周反方审稿清单第 4 篇)
立场:反方 / 审稿人
来源:arXiv abstract + 项目页 + Hugging Face Papers + Emergent Mind 摘要(无全文抓取)

0. 元信息

论文:Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
arXiv:2511.04570 v2(cs.CV / cs.CL)
项目页:https://thinking-with-video.github.io
数据集:VideoThinkBench 已在 ModelScope 公开(https://modelscope.cn/datasets/openmoss/VideoThinkBench)
HF Papers:https://huggingface.co/papers/2511.04570

1. 贡献主张(作者怎么说)

提出新范式 "Thinking with Video":用视频生成模型(以 Sora-2 为代表)作为"统一多模态推理媒介"
配套发布 VideoThinkBench,覆盖两类任务:
视觉中心任务:Eyeballing Puzzles
文本中心任务:GSM8K、MMMU
三个 headline 数字: 1. Sora-2 在 Eyeballing Puzzle 上超 GPT-5 10%(显著差) 2. Sora-2 在 MMMU 上达到 69%(对生成模型而言极高) 3. "thinking with video" 是 统一理解+生成的潜在统一范式

2. 反方核心拷问

2.1 Sora-2 "vs GPT-5 10%" 的可比性

Sora-2 跑的是视频生成任务,从提示生成多帧再读出答案;GPT-5 跑的是纯文本/图像任务,模态不对等
公平对照应是:Sora-2 的视频推理 vs VLMs 看 16-32 帧的 "video understanding"(GPT-4o、Gemini-3.1-Video、Qwen3.6-VL 等)
没有看到作者在 v1/v2 abstract 中明确这个对照,这 10% 是 cherry-picked framing 的高风险
⚠️ 标记:待补查 v2 全文对照实验

2.2 MMMU 69% 的解读

MMMU 是多模态理解基准,不是为"生成模型先渲染再读答案"设计的
一个可能解释:Sora-2 在生成的视频里无意暴露了答案——比如题面问"几何面积",Sora-2 渲染几何图时会主动把辅助线、网格加上,等于把答案给了自己
这种"渲染中无意泄露答案"是生成模型的系统性捷径,论文必须显式 ablate
❓ 标记:待补查 v2 是否做 "answer leakage" 控制

2.3 "thinking" 这个词被滥用

"Thinking with X" 这个范式名词家族现在爆炸:Thinking with Text(CoT)、Thinking with Images(Visual CoT)、Thinking with Video
反方观点:Sora-2 并没有 "think",它在 generate,所谓"用视频帧作为推理媒介"更像是"用生成代替检索/感知"
这不是新范式,而是生成模型的系统 2 替代路径,论文应在术语上保持克制

2.4 VideoThinkBench 的覆盖度

GSM8K + MMMU + Eyeballing Puzzle 这三类任务的代表性不足
缺:多步物理推理、符号推理、时间序列因果、视频长上下文(>10 分钟)
数据集已开源(ModelScope)是加分项,但评测协议细节(prompt 模板、是否允许 frame sampling 策略、超参)没在摘要里说
❓ 标记:待补查评测协议

2.5 复现门槛

关键依赖 Sora-2 API——OpenAI 闭源,无法本地复现
论文若要把结论"开源可复现",至少要给出开源视频生成模型(Wan2.6、HunyuanVideo、CogVideoX2 等)的对照
❓ 标记:待补查是否给出开源替代的对比

2.6 算力对等性

生成多帧视频做"推理",单次推理成本远超 GPT-5 的 1 次 token 生成
论文应在"准确率 vs 推理成本"的曲线上同时报告,否则这个 10% 是用 1000× 算力换来的
⚠️ 标记:待补查 cost-normalized 对照

3. 价值判断

新颖性:B+——"视频生成作为推理媒介"是个有意思的角度,但术语 "thinking" 借用过度
实验严谨性:C+——abstract 数字过于 headline,缺成本/对照/泄漏控制
复现门槛:C——依赖 Sora-2 闭源 API,无法在自研环境复现
影响力潜力:A-——如果后续工作能复现到开源生成模型,范式叙事的力量很大

4. 整体裁决

总评:B-(想法新但证据弱;被简报标题数字掩盖了方法论问题)
建议: 1. 主题页 unified-multimodal-reasoning-2026.md 收录摘要 + 三个 headline 数字,但必须同步加 "反方风险" 警示 2. 不作为推荐复现(因 Sora-2 闭源) 3. 跟进:等作者放出 v2 全文 + 开源模型对照(预计 2026-07);同时让 spark 评估 Wan2.6 / HunyuanVideo 是否能在类似任务上复现 4. 与本周 contextrl-multimodal-longcontext.md(长上下文多模态)、VaLR-vision-aligned-latent-reasoning.md(latent reasoning)合并为"统一多模态推理范式"主题页

5. 待补查清单

[ ] v2 全文对照实验(开源视频生成模型 vs Sora-2)
[ ] MMMU "answer leakage" 控制(渲染中是否暴露答案)
[ ] cost-normalized 对照(准确率 vs 推理成本)
[ ] VideoThinkBench 评测协议(prompt、frame sampling、超参)
[ ] v2 修订 changelog(相对 v1 加了什么)

6. 标签

#review #critical-analysis #video-reasoning #thinking-with-video #sora-2 #unified-mllm #benchmark #mmmu #closed-weight-risk #cost-normalized #overclaim-risk

7. 建议写入路径(由 Stephen 同步)

本审稿:/shared/research-kb/inbox/flyp/2026-06-17-thinking-with-video-short-review.md(本文件)
主题页引用:research-kb/published/notes/unified-multimodal-reasoning-2026.md(待 Stephen 串行同步)
registry 引用:research-kb/registry/papers.jsonl → arXiv:2511.04570 / review: B- / 担忧:可比性 + 答案泄漏 + 算力对等