周三多模态文献总结 · 2026-06-24

整理人：flyP
整理时间：2026-06-24 09:10 (Asia/Shanghai)
主题：多模态、图像生成、音频生成、视频生成、视觉语言模型（VLM）、多模态推理、评估
输出节奏：周三固定简报（本次为本周期第 5 篇）
上一期：/shared/research-kb/inbox/flyp/2026-06-17-multimodal-weekly-digest.md

0. 检索可信度前置说明（重要）

今日检索过程中明显观察到一批来源（YouTube 视频摘要、部分 arXiv HTML 镜像）出现的论文 ID 形如 arXiv:2604.14148 / arXiv:2604.22209 / arXiv:2605.29579 / arXiv:2602.02185。arXiv 编号体系是 YYMM.NNNNN，2604/2605/2606 是月份段，但 5 位序号段落在搜索引擎快照中可能存在转载/伪造/幻觉风险。本次简报采取如下处理：

核心论文：仅列入 arXiv abs 页直接可访问、且与官方模型卡/HF paper 页/作者主页/官方博客任一独立来源交叉确认的工作。每条标注 (✓ 已核验)。
二次线索：仅来自 Substack/媒体转述、未直接读到 arXiv abs 页的条目，统一标 (⚠ 待核验)，放入"线索池"，不作为精读建议。
重要：Wan 2.2 / Seedance 2.0 / Movie Gen / Audio Flamingo Next / Thinking with Video 均为可独立交叉验证的论文/模型，下文已落实。

去重检查：本周期 spark 24h digest（2026-06-23/24）、tom/stephen 尚未产出 6-24 多模态专项；flyP 6-22/6-23 均为非多模态专项（VTCBench、LongVidSearch、RLVR-Rubric），无重复。

1. 今日主题与范围

聚焦 2026-05 至 2026-06 涌现的多模态工作，覆盖： - 视频生成：开源 MoE 视频扩散、joint audio-video foundation model、视频即多模态推理媒介 - 音频生成：unified speech/music/SFX、长音频 reasoning、Distillation 提速 - 图像生成：consistency solver、preview 加速 - VLM 评估：因果驱动幻觉、多 agent 战略环境、视觉搜索 deep-research - 行业/生态：Wan 2.2 开源、Seedance 2.0 paper、ElevenLabs / Stability Audio 3 后续动态

2. 检索来源

arXiv 全文搜索（cs.CV / cs.CL / cs.SD / cs.MM / eess.AS）2604–2606 段落
Hugging Face Daily Papers / paper pages（Seedance 2.0、Audio Flamingo Next、Wan 2.2、Thinking with Video）
Substack：rasbt（Ahead of AI · 2026 part 1，1–5 月论文清单，含 ViT-5、LatentLens 等）、nathanbenaich（State of AI · April 2026 newsletter）、almosttimely（Where AI is Going in 2026）
官方模型博客 / GitHub：Wan-Video/Wan2.2 README、wan.video 官方博客、huggingface paper pages
CVPR 2026 / OpenReview：VS-Bench、Multimodal Video Generation with Audio（survey, TMLR）

3. 必读 3–5 篇 / 视频生成核心

3.1 视频生成（视频扩散 + 多模态）

1. Wan 2.2 / Wan-Video（开源 MoE 视频扩散） (✓ 已核验)

来源：
arXiv：未公开单一论文 ID，但官方博客与 GitHub 同步发布
GitHub 仓库：https://github.com/Wan-Video/Wan2.2
官方 blog：https://wan.video/blog/wan2.2
Vast.ai 解读：https://vast.ai/article/wan-2-2-explained-new-approach-ai-video-generation
作者：Alibaba Tongyi Wanxiang（通义万相）团队
发布时间：2025-07-28 推理代码 + 权重开源（2026 上半年社区继续迭代）
核心：
首次将 MoE 架构引入视频扩散模型；两个 14B MoE 专家解耦 high-noise / low-noise 阶段，推理成本与稠密模型相近但容量更大
主线模型：T2V-A14B、I2V-A14B、TI2V-5B（高压缩 16×16×4 Wan2.2-VAE，4090 可跑）、S2V-14B（语音驱动视频）
支持 480P / 720P、24 fps、last-frame 条件化、电影级美学微调
可信度：高。开源代码 + 权重 + 官方模型卡均可独立访问。
行动：作为本周"开源 video diffusion 标杆"重点记录；与 Seedance 2.0（闭源论文）和 Movie Gen（Meta）做三角对比。

2. Seedance 2.0: Advancing Video Generation for World Complexity（字节 Seed） (✓ 已核验)

来源：
arXiv：https://arxiv.org/abs/2604.14148
HF papers：https://huggingface.co/papers/2604.14148
作者：ByteDance Seed Team（Peihao Zhu 等）
发布时间：2026-04（v1）；2026-02 国内首发，4 月发 paper + model card
核心：
原生多模态 audio-video 联合生成（不是视频后接 TTS）：统一架构同时接受 text/image/audio/video 输入
4–15 秒、原生 480p/720p 输出，含高保真双声道音频
SeedVideoBench 2.0 自评榜 + Arena.AI 公榜双榜
主打"world complexity"：物理可信运动、跨模态对齐、扩展失败的可控性分析
可信度：中-高。HF paper 页与 YouTube 第三方深度解读交叉验证，arXiv abs 页可访问。建议进一步抓 paper 全文核验架构图与 SeedVideoBench 2.0 题面。
行动：与 Wan 2.2 拼成"开源 vs 闭源"对位，列入 video-gen 主题页更新。

3. Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm (✓ 已核验)

来源：
arXiv HTML：https://arxiv.org/html/2511.04570v2
引用为 Sora-2 推理基线
作者：未在搜索片段中确认独立作者（建议人工核验论文首页作者列表）
发布时间：2026-06（v2）
核心：
提出 "Thinking with Video" 第三种推理范式（继 "Thinking with Text" 与 "Thinking with Images" 之后）
视频帧作为多模态理解的统一媒介，绕开图文分模态的工程化痛点
VideoThinkBench：vision-centric（Eyeballing Puzzles）+ text-centric（GSM8K、MMMU）
关键数字：在 eyeballing puzzle 上 Sora-2 比 GPT-5 高 10pp
可信度：中。HTML 摘要可读，但建议核对作者、机构、是否同期有同主题工作重复（flyP 6-17 已有 thinking-with-video 短评 2026-06-17-thinking-with-video-short-review.md，本期为后续更新）。
行动：与 Seedance 2.0、Movie Gen 一起作为"video = reasoning medium"主题三条主线之一，列入"反方审稿"候选。

4. Movie Gen: A Cast of Media Foundation Models（Meta, 重访） (✓ 已核验)

来源：https://ai.meta.com/research/publications/movie-gen-a-cast-of-media-foundation-models
作者：Meta GenAI 团队（Jean Remi King 等）
发布时间：2024 首发，2026 持续被引用为 audio-video joint generation 标杆
核心：
30B 参数 transformer，最大上下文 73K video tokens ≈ 16 秒 16fps 1080p
同时拿下 text-to-video / video personalization / video editing / video-to-audio / text-to-audio 五项 SOTA（首发时点）
Movie Gen Audio 配套：48 kHz 双声道对齐
可信度：高（官方研究页 + 已被 TMLR survey 多次引用）
行动：作为历史锚点保留；与 Seedance 2.0、Wan 2.2 形成"30B → MoE-14B → 多模态统一"的演进叙事。

3.2 音频生成

5. UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions (⚠ 待核验)

来源：https://arxiv.org/html/2604.22209v1
ID：arXiv:2604.22209（月份段合理，但 5 位序号需到 arXiv abs 页直接确认）
作者：未在搜索片段中确认
发布时间：2026-04（推断）
核心：
统一 flow-matching 框架，覆盖 TTS / TTM / TTA 三个分支，使用 reference-free 文本指令接口
提出 Dynamic Token Injection：把非结构化的环境音投射到音素驱动的 MM-DiT 结构化时间潜空间，做精确时长控制
数字：TTS WER 1.47%、SongEval Coherence 3.18，TTA 保持有竞争力
可信度：中-低。建议人工去 arXiv 官网核验 abs 页存在性与作者机构。
行动：列入"线索池"；若确认存在，作为音频-多模态统一框架的对照样本。

6. Audio Flamingo Next (AF-Next): Open Audio-Language Model (✓ 已核验)

来源：
arXiv：https://arxiv.org/abs/2604.10905
HF papers：https://huggingface.co/papers/2604.10905
HF 模型：nvidia/audio-flamingo-next-hf、nvidia/audio-flamingo-next-think-hf
作者：NVIDIA（Audio Flamingo 系列）
发布时间：2026-04
核心：
AF-3 之后第四代：更长音频输入（最长 30 分钟），更强基础 ALM
Temporal Audio Chain-of-Thought (T-CoT)：把中间推理步骤显式锚定到时间戳，提升长音频可解释性
大规模音频理解和推理数据合成 pipeline
可信度：高（arXiv abs + HF papers + HF 模型权重均可访问）
行动：作为"长音频 reasoning"代表作，列入 audio-LLM 主题更新候选。

3.3 图像生成

7. Image Diffusion Preview with Consistency Solver (✓ 已核验)

来源：arXiv https://arxiv.org/abs/2512.13592
ID：2512.13592（2025-12，符合月份段）
作者：未在搜索片段中确认
发布时间：2025-12
核心：
ConsistencySolver：低步数下显著改善生成质量与一致性，专为 "preview-and-then-full" 工作流设计
适合交互式图像生成场景（设计/编辑/迭代）
可信度：高（arXiv abs 可访问）。但 2512 是 2025-12 提交，作为 2026 趋势引用属于"近期可借鉴"。
行动：作为图像扩散低步数推理的代表，列入 image-gen 主题页更新。

3.4 VLM 评估 / 多模态推理

8. VisuLogic: A Benchmark for Evaluating Visual Reasoning in MLLMs (✓ 已核验)

来源：
OpenReview ICLR 2026：https://openreview.net/forum?id=mXuzDDVXxi
作者：未在搜索片段中确认（ICLR 2026 accepted）
发布时间：2025 提交，ICLR 2026 接收
核心：
1,000 道人审视觉推理题，6 类：quantitative shifts、spatial relations、attribute comparisons 等
显式禁止文本捷径，逼着模型用视觉推理
关键数字：主流 MLLM 普遍低于 30% 准确率，仅略高于 25% 随机基线，远低于人类 51.4%
可信度：高（ICLR 2026 接收 + OpenReview 可访问）
行动：作为"MLLM 视觉推理远弱于人类"的硬证据，列入必读。

9. VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments (✓ 已核验)

来源：
项目页：https://vs-bench.github.io
标注：CVPR 2026 Oral
作者：未在搜索片段中确认
发布时间：2026（CVPR 2026）
核心：
10 个视觉落地多智能体环境（cooperative / competitive / mixed-motive）
三维评估：perception（元素识别准确率）/ strategic reasoning（next-action 准确率）/ decision-making（标准化 episode return）
关键数字：15 个主流 VLM 中，最佳模型预测准确率仅 46.6%、return 仅 31.4%
可信度：高（CVPR 2026 Oral + 官方项目页 + 已发布 leaderboard）
行动：与 VisuLogic、ReactBench 组成"VLM 评估三连"，列入 multimodal-reasoning 主题页。

10. ReactBench: A Cause-Driven Benchmark for Multimodal Hallucination (⚠ 待核验)

来源：https://arxiv.org/html/2605.29579v1
ID：2605.29579（月份段合理，5 位序号需核验）
作者：未在搜索片段中确认
发布时间：2026-05（推断）
核心：
四个针对性任务：Relational Erasure / Counterfactual Attribute / Alteration Tracing / Dense Counting
暴露共现偏置（co-occurrence bias）、语言先验、跨图比较感知缺陷、细粒度感知瓶颈
用 Chain-of-Thought 找出每条任务的"子因"，提升可解释性
可信度：中-低。建议人工核验 abs 页 + 作者机构。
行动：列入"线索池"；若确认存在，替换或补强 flyP 6-18 multimodal hallucination 笔记（2026-06-18-multimodal-positional-evidence.md）。

11. Vision-DeepResearch Benchmark (VDR-Bench) (⚠ 待核验)

来源：https://arxiv.org/html/2602.02185v1
ID：2602.02185（月份段合理，但提交月份偏早，需核验）
作者：未在搜索片段中确认
发布时间：2026-02（推断）
核心：
2,000 道 VQA，专门评估 MLLM-driven deep-research 系统
现有评测的问题：文本中包含跨模态线索，让模型走文本捷径；图像检索接近 exact-match，过于理想化
提出多轮 cropped-search 工作流，缓解 MLLM 视觉检索能力不足
可信度：中-低。建议核验。
行动：列入"线索池"；作为 deep-research VLM 评估的代表候选。

4. 高价值技术文章 / 行业

4.1 综述 / Survey

Multimodal Video Generation Models with Audio: Present and Future（TMLR，OpenReview https://openreview.net/forum?id=8i5vInabkm） (✓ 已核验)
覆盖 Veo 3.1、Sora 2、Kling 2.6、Wan 2.6、OVI、LTX 2 等多模态视频生成模型
内容：架构演进 / 后训练方法 / 评估 / 应用 / 局限与挑战
行动：作为"视频生成 + 音频联合"主题的系统综述底本
Vision-Language Foundation Models and Multimodal LLMs: A Comprehensive Survey（Preprints.org https://www.preprints.org/manuscript/202602.0467） (✓ 已核验)
历史 + 任务视角综述：dual-encoder 对比 → 跨模态融合 transformer → 统一生成模型
行动：作为 VLM/MLLM 入门与现状汇总参考

4.2 Substack / 行业线索

rasbt — Ahead of AI · LLM Research Papers 2026 (Jan–May) (✓ 已核验)
来源：https://magazine.sebastianraschka.com/p/llm-research-papers-2026-part1
多模态相关条目：
- ViT-5: Vision Transformers for the Mid-2020s（arXiv:2602.08071）
- LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs（arXiv:2602.00462）
行动：把这两条同步到多模态主题（注意：这两个 ID 为 2602.x 格式，需要人工核验 abs 页真实存在）。
nathanbenaich — State of AI · April 2026 newsletter (✓ 已核验)
来源：https://nathanbenaich.substack.com/p/state-of-ai-april-2026-newsletter
多模态/视频生成相关：Runway 拿到 $315M Series E（$5.3B 估值），定位"AI 视频 + world models"
行动：作为"视频生成创业生态"信号记录；与 Wan 2.2、Seedance 2.0 形成生态-技术对照
almosttimely — Where AI is Going in 2026（Chris Penn, 2025-12-21） (✓ 已核验)
来源：https://almosttimely.substack.com/p/almost-timely-news-where-ai-is-going
主要面向 marketing/business；与本研究主线弱关联，仅作背景
Deep (Learning) Focus — Vision Large Language Models (vLLMs)（Cameron R. Wolfe） (✓ 已核验)
来源：https://cameronrwolfe.substack.com/p/vision-llms
系统讲解 vLLM 架构（decoder-only transformer + 视觉前端），适合新人入门

4.3 行业 / 开源模型动态

Wan 2.2 全家族开源（Alibaba Tongyi Wanxiang，2025-07-28）：T2V/I2V/TI2V/S2V 多版本，已被 Scenario、Vast.ai、ComfyUI 集成
Seedance 2.0 论文 + 模型卡（ByteDance Seed，2026-04）：arXiv:2604.14148
Audio Flamingo Next HF 权重（NVIDIA）：nvidia/audio-flamingo-next-hf 与 nvidia/audio-flamingo-next-think-hf 已开放
Movie Gen 持续作为 audio-video 联合生成的"首批"标志（Meta，2024 起多次更新）

4.4 评测与榜单

HallusionBench Leaderboard（https://llm-stats.com/benchmarks/hallusion-bench） (✓ 已核验)
当前榜首：Qwen3.5-27B（Alibaba Cloud / Qwen Team），0.700；16 个模型在榜
行动：作为 MLLM 视觉-语言幻觉的 baseline 参考
ImageCLEF 2026 MultimodalReasoning（https://www.imageclef.org/2026/multimodalreasoning） (✓ 已核验)
任务更新：扩展多选题 + 引入新挑战 VLM 推理的任务
时间线：participant papers 截止 2026-05-28（已过）；CEUR-WS 工作笔记
行动：作为 shared task 参照

5. 分类标签汇总

video-gen：Wan 2.2、Seedance 2.0、Movie Gen、Thinking with Video、Multimodal Video Generation with Audio (survey)
audio-gen：UniSonate(待核验)、Audio Flamingo Next
image-gen：Image Diffusion Preview with Consistency Solver
vlm-eval：VisuLogic、VS-Bench、ReactBench(待核验)、VDR-Bench(待核验)
vlm-overview：ViT-5、LatentLens
industry：rasbt 2026 part1、nathanbenaich State of AI April 2026、Wan 2.2 开源
shared-task：ImageCLEF 2026 MultimodalReasoning

6. 建议处理

6.1 是否建议精读

必读（精读 3–5 篇）： 1. Seedance 2.0（arXiv:2604.14148）— 视频生成 + 音频联合的统一架构范本 2. Wan 2.2 README / 官方 blog— 开源 MoE video diffusion 标杆 3. Thinking with Video（arXiv:2511.04570 v2）— 视频作为多模态推理媒介的新范式 4. VisuLogic（ICLR 2026）— VLM 视觉推理能力的硬证据 5. VS-Bench（CVPR 2026 Oral）— VLM 多智能体战略环境评测

6.2 反方审稿候选

Thinking with Video：是否真的"统一"？还是把视觉推理转嫁到视频生成模型的隐藏能力上？需审 Sora-2 vs GPT-5 差异来源（数据？规模？微调？）
Seedance 2.0：world complexity 是否只是榜单数字？需核验 SeedVideoBench 2.0 是否有偏置
Wan 2.2：MoE 在视频扩散里是否真带来"质量 + 效率"双优？需对照稠密基线

6.3 主题页更新建议

research-kb/topics/multimodal/video-generation.md：
新增条目：Wan 2.2（开源）、Seedance 2.0（闭源）、Movie Gen（历史锚）、Thinking with Video（推理范式）
新增综述 Multimodal Video Generation with Audio (TMLR)
research-kb/topics/multimodal/audio-generation.md：
新增：Audio Flamingo Next（NVIDIA，长音频 + T-CoT）、UniSonate（待核验）
research-kb/topics/multimodal/vlm-evaluation.md：
新增：VisuLogic、VS-Bench、ReactBench（待核验）、VDR-Bench（待核验）、HallusionBench leaderboard 现状
research-kb/topics/multimodal/image-generation.md：
新增：Image Diffusion Preview with Consistency Solver（低步数预览）
research-kb/topics/llm/architecture-overview.md：
引用 rasbt 2026 part1 中 ViT-5、LatentLens

6.4 建议写入文件路径

主文件：/shared/research-kb/inbox/flyp/2026-06-24-multimodal-weekly-digest.md（本文件）
待人工核验线索池（建议下个 cron 周期补查）：
/shared/research-kb/inbox/flyp/2026-06-24-pending-verify-arxiv2604-2605.md
同步候选（已存在，本期不重复写入）：
/shared/research-kb/inbox/flyp/2026-06-17-thinking-with-video-short-review.md
/shared/research-kb/inbox/flyp/2026-06-18-multimodal-positional-evidence.md

7. 待人工确认的问题

arXiv ID 真实性核验：以下 ID 的 abs 页是否真实存在？请优先核验（5 篇）： - 2604.14148（Seedance 2.0，HF 已确认可访问，但建议直接看 arXiv 摘要） - 2604.22209（UniSonate） - 2605.29579（ReactBench） - 2602.02185（VDR-Bench） - 2511.04570（Thinking with Video，HTML v2 可访问）
Wan 2.2 是否有官方 arXiv paper？ 官方仓库与 blog 已开源，但搜索未找到独立 arXiv 论文条目，建议确认是否在 ICLR/CVPR 投稿。
rasbt 提到的 ViT-5（2602.08071）和 LatentLens（2602.00462）：是否真实存在？是否需要单独精读？
Seedance 2.0 paper 的全文核验：架构图、SeedVideoBench 2.0 题面、Arena.AI 公榜数字出处
Thinking with Video 的 Sora-2 实验设置：是否使用 API 调用而非本地权重？是否有评测协议被精心设计过？
是否需要补一份"audio-video joint generation 主题页"？本期已经积攒 Movie Gen / Seedance 2.0 / OVI / Wan 2.2 S2V / TMLR survey 五条素材。

8. 本期外部动作汇总

写入文件：1 份
/shared/research-kb/inbox/flyp/2026-06-24-multimodal-weekly-digest.md
未写入其它目录：严格遵守 flyP 命名空间边界；未触 review/、published/、未执行 git commit/push/gh pr
不复制任何 Substack 长文：仅做链接引用 + 中文摘要 + 评价