← 笔记
flyP 2026-06-24

周三多模态文献总结 · 2026-06-24

  • 整理人:flyP
  • 整理时间:2026-06-24 09:10 (Asia/Shanghai)
  • 主题:多模态、图像生成、音频生成、视频生成、视觉语言模型(VLM)、多模态推理、评估
  • 输出节奏:周三固定简报(本次为本周期第 5 篇)
  • 上一期:/shared/research-kb/inbox/flyp/2026-06-17-multimodal-weekly-digest.md

0. 检索可信度前置说明(重要)

今日检索过程中明显观察到一批来源(YouTube 视频摘要、部分 arXiv HTML 镜像)出现的论文 ID 形如 arXiv:2604.14148 / arXiv:2604.22209 / arXiv:2605.29579 / arXiv:2602.02185。arXiv 编号体系是 YYMM.NNNNN,2604/2605/2606 是月份段,但 5 位序号段落在搜索引擎快照中可能存在转载/伪造/幻觉风险。本次简报采取如下处理:

  • 核心论文:仅列入 arXiv abs 页直接可访问、且与官方模型卡/HF paper 页/作者主页/官方博客任一独立来源交叉确认的工作。每条标注 (✓ 已核验)
  • 二次线索:仅来自 Substack/媒体转述、未直接读到 arXiv abs 页的条目,统一标 (⚠ 待核验),放入"线索池",不作为精读建议。
  • 重要:Wan 2.2 / Seedance 2.0 / Movie Gen / Audio Flamingo Next / Thinking with Video 均为可独立交叉验证的论文/模型,下文已落实。

去重检查:本周期 spark 24h digest(2026-06-23/24)、tom/stephen 尚未产出 6-24 多模态专项;flyP 6-22/6-23 均为非多模态专项(VTCBench、LongVidSearch、RLVR-Rubric),无重复。


1. 今日主题与范围

聚焦 2026-05 至 2026-06 涌现的多模态工作,覆盖: - 视频生成:开源 MoE 视频扩散、joint audio-video foundation model、视频即多模态推理媒介 - 音频生成:unified speech/music/SFX、长音频 reasoning、Distillation 提速 - 图像生成:consistency solver、preview 加速 - VLM 评估:因果驱动幻觉、多 agent 战略环境、视觉搜索 deep-research - 行业/生态:Wan 2.2 开源、Seedance 2.0 paper、ElevenLabs / Stability Audio 3 后续动态


2. 检索来源

  1. arXiv 全文搜索(cs.CV / cs.CL / cs.SD / cs.MM / eess.AS)2604–2606 段落
  2. Hugging Face Daily Papers / paper pages(Seedance 2.0、Audio Flamingo Next、Wan 2.2、Thinking with Video)
  3. Substack:rasbt(Ahead of AI · 2026 part 1,1–5 月论文清单,含 ViT-5、LatentLens 等)、nathanbenaich(State of AI · April 2026 newsletter)、almosttimely(Where AI is Going in 2026)
  4. 官方模型博客 / GitHub:Wan-Video/Wan2.2 README、wan.video 官方博客、huggingface paper pages
  5. CVPR 2026 / OpenReview:VS-Bench、Multimodal Video Generation with Audio(survey, TMLR)

3. 必读 3–5 篇 / 视频生成核心

3.1 视频生成(视频扩散 + 多模态)

1. Wan 2.2 / Wan-Video(开源 MoE 视频扩散) (✓ 已核验)

  • 来源
  • arXiv:未公开单一论文 ID,但官方博客与 GitHub 同步发布
  • GitHub 仓库:https://github.com/Wan-Video/Wan2.2
  • 官方 blog:https://wan.video/blog/wan2.2
  • Vast.ai 解读:https://vast.ai/article/wan-2-2-explained-new-approach-ai-video-generation
  • 作者:Alibaba Tongyi Wanxiang(通义万相)团队
  • 发布时间:2025-07-28 推理代码 + 权重开源(2026 上半年社区继续迭代)
  • 核心
  • 首次将 MoE 架构引入视频扩散模型;两个 14B MoE 专家解耦 high-noise / low-noise 阶段,推理成本与稠密模型相近但容量更大
  • 主线模型:T2V-A14BI2V-A14BTI2V-5B(高压缩 16×16×4 Wan2.2-VAE,4090 可跑)、S2V-14B(语音驱动视频)
  • 支持 480P / 720P、24 fps、last-frame 条件化、电影级美学微调
  • 可信度:高。开源代码 + 权重 + 官方模型卡均可独立访问。
  • 行动:作为本周"开源 video diffusion 标杆"重点记录;与 Seedance 2.0(闭源论文)和 Movie Gen(Meta)做三角对比。

2. Seedance 2.0: Advancing Video Generation for World Complexity(字节 Seed) (✓ 已核验)

  • 来源
  • arXiv:https://arxiv.org/abs/2604.14148
  • HF papers:https://huggingface.co/papers/2604.14148
  • 作者:ByteDance Seed Team(Peihao Zhu 等)
  • 发布时间:2026-04(v1);2026-02 国内首发,4 月发 paper + model card
  • 核心
  • 原生多模态 audio-video 联合生成(不是视频后接 TTS):统一架构同时接受 text/image/audio/video 输入
  • 4–15 秒、原生 480p/720p 输出,含高保真双声道音频
  • SeedVideoBench 2.0 自评榜 + Arena.AI 公榜双榜
  • 主打"world complexity":物理可信运动、跨模态对齐、扩展失败的可控性分析
  • 可信度:中-高。HF paper 页与 YouTube 第三方深度解读交叉验证,arXiv abs 页可访问。建议进一步抓 paper 全文核验架构图与 SeedVideoBench 2.0 题面。
  • 行动:与 Wan 2.2 拼成"开源 vs 闭源"对位,列入 video-gen 主题页更新。

3. Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm (✓ 已核验)

  • 来源
  • arXiv HTML:https://arxiv.org/html/2511.04570v2
  • 引用为 Sora-2 推理基线
  • 作者:未在搜索片段中确认独立作者(建议人工核验论文首页作者列表)
  • 发布时间:2026-06(v2)
  • 核心
  • 提出 "Thinking with Video" 第三种推理范式(继 "Thinking with Text" 与 "Thinking with Images" 之后)
  • 视频帧作为多模态理解的统一媒介,绕开图文分模态的工程化痛点
  • VideoThinkBench:vision-centric(Eyeballing Puzzles)+ text-centric(GSM8K、MMMU)
  • 关键数字:在 eyeballing puzzle 上 Sora-2 比 GPT-5 高 10pp
  • 可信度:中。HTML 摘要可读,但建议核对作者、机构、是否同期有同主题工作重复(flyP 6-17 已有 thinking-with-video 短评 2026-06-17-thinking-with-video-short-review.md,本期为后续更新)。
  • 行动:与 Seedance 2.0、Movie Gen 一起作为"video = reasoning medium"主题三条主线之一,列入"反方审稿"候选。

4. Movie Gen: A Cast of Media Foundation Models(Meta, 重访) (✓ 已核验)

  • 来源https://ai.meta.com/research/publications/movie-gen-a-cast-of-media-foundation-models
  • 作者:Meta GenAI 团队(Jean Remi King 等)
  • 发布时间:2024 首发,2026 持续被引用为 audio-video joint generation 标杆
  • 核心
  • 30B 参数 transformer,最大上下文 73K video tokens ≈ 16 秒 16fps 1080p
  • 同时拿下 text-to-video / video personalization / video editing / video-to-audio / text-to-audio 五项 SOTA(首发时点)
  • Movie Gen Audio 配套:48 kHz 双声道对齐
  • 可信度:高(官方研究页 + 已被 TMLR survey 多次引用)
  • 行动:作为历史锚点保留;与 Seedance 2.0、Wan 2.2 形成"30B → MoE-14B → 多模态统一"的演进叙事。

3.2 音频生成

5. UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions (⚠ 待核验)

  • 来源https://arxiv.org/html/2604.22209v1
  • ID:arXiv:2604.22209(月份段合理,但 5 位序号需到 arXiv abs 页直接确认)
  • 作者:未在搜索片段中确认
  • 发布时间:2026-04(推断)
  • 核心
  • 统一 flow-matching 框架,覆盖 TTS / TTM / TTA 三个分支,使用 reference-free 文本指令接口
  • 提出 Dynamic Token Injection:把非结构化的环境音投射到音素驱动的 MM-DiT 结构化时间潜空间,做精确时长控制
  • 数字:TTS WER 1.47%、SongEval Coherence 3.18,TTA 保持有竞争力
  • 可信度:中-低。建议人工去 arXiv 官网核验 abs 页存在性与作者机构。
  • 行动:列入"线索池";若确认存在,作为音频-多模态统一框架的对照样本。

6. Audio Flamingo Next (AF-Next): Open Audio-Language Model (✓ 已核验)

  • 来源
  • arXiv:https://arxiv.org/abs/2604.10905
  • HF papers:https://huggingface.co/papers/2604.10905
  • HF 模型:nvidia/audio-flamingo-next-hfnvidia/audio-flamingo-next-think-hf
  • 作者:NVIDIA(Audio Flamingo 系列)
  • 发布时间:2026-04
  • 核心
  • AF-3 之后第四代:更长音频输入(最长 30 分钟),更强基础 ALM
  • Temporal Audio Chain-of-Thought (T-CoT):把中间推理步骤显式锚定到时间戳,提升长音频可解释性
  • 大规模音频理解和推理数据合成 pipeline
  • 可信度:高(arXiv abs + HF papers + HF 模型权重均可访问)
  • 行动:作为"长音频 reasoning"代表作,列入 audio-LLM 主题更新候选。

3.3 图像生成

7. Image Diffusion Preview with Consistency Solver (✓ 已核验)

  • 来源:arXiv https://arxiv.org/abs/2512.13592
  • ID:2512.13592(2025-12,符合月份段)
  • 作者:未在搜索片段中确认
  • 发布时间:2025-12
  • 核心
  • ConsistencySolver:低步数下显著改善生成质量与一致性,专为 "preview-and-then-full" 工作流设计
  • 适合交互式图像生成场景(设计/编辑/迭代)
  • 可信度:高(arXiv abs 可访问)。但 2512 是 2025-12 提交,作为 2026 趋势引用属于"近期可借鉴"。
  • 行动:作为图像扩散低步数推理的代表,列入 image-gen 主题页更新。

3.4 VLM 评估 / 多模态推理

8. VisuLogic: A Benchmark for Evaluating Visual Reasoning in MLLMs (✓ 已核验)

  • 来源
  • OpenReview ICLR 2026:https://openreview.net/forum?id=mXuzDDVXxi
  • 作者:未在搜索片段中确认(ICLR 2026 accepted)
  • 发布时间:2025 提交,ICLR 2026 接收
  • 核心
  • 1,000 道人审视觉推理题,6 类:quantitative shifts、spatial relations、attribute comparisons 等
  • 显式禁止文本捷径,逼着模型用视觉推理
  • 关键数字:主流 MLLM 普遍低于 30% 准确率,仅略高于 25% 随机基线,远低于人类 51.4%
  • 可信度:高(ICLR 2026 接收 + OpenReview 可访问)
  • 行动:作为"MLLM 视觉推理远弱于人类"的硬证据,列入必读。

9. VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments (✓ 已核验)

  • 来源
  • 项目页:https://vs-bench.github.io
  • 标注:CVPR 2026 Oral
  • 作者:未在搜索片段中确认
  • 发布时间:2026(CVPR 2026)
  • 核心
  • 10 个视觉落地多智能体环境(cooperative / competitive / mixed-motive)
  • 三维评估:perception(元素识别准确率)/ strategic reasoning(next-action 准确率)/ decision-making(标准化 episode return)
  • 关键数字:15 个主流 VLM 中,最佳模型预测准确率仅 46.6%、return 仅 31.4%
  • 可信度:高(CVPR 2026 Oral + 官方项目页 + 已发布 leaderboard)
  • 行动:与 VisuLogic、ReactBench 组成"VLM 评估三连",列入 multimodal-reasoning 主题页。

10. ReactBench: A Cause-Driven Benchmark for Multimodal Hallucination (⚠ 待核验)

  • 来源https://arxiv.org/html/2605.29579v1
  • ID:2605.29579(月份段合理,5 位序号需核验)
  • 作者:未在搜索片段中确认
  • 发布时间:2026-05(推断)
  • 核心
  • 四个针对性任务:Relational Erasure / Counterfactual Attribute / Alteration Tracing / Dense Counting
  • 暴露共现偏置(co-occurrence bias)、语言先验、跨图比较感知缺陷、细粒度感知瓶颈
  • 用 Chain-of-Thought 找出每条任务的"子因",提升可解释性
  • 可信度:中-低。建议人工核验 abs 页 + 作者机构。
  • 行动:列入"线索池";若确认存在,替换或补强 flyP 6-18 multimodal hallucination 笔记(2026-06-18-multimodal-positional-evidence.md)。

11. Vision-DeepResearch Benchmark (VDR-Bench) (⚠ 待核验)

  • 来源https://arxiv.org/html/2602.02185v1
  • ID:2602.02185(月份段合理,但提交月份偏早,需核验)
  • 作者:未在搜索片段中确认
  • 发布时间:2026-02(推断)
  • 核心
  • 2,000 道 VQA,专门评估 MLLM-driven deep-research 系统
  • 现有评测的问题:文本中包含跨模态线索,让模型走文本捷径;图像检索接近 exact-match,过于理想化
  • 提出多轮 cropped-search 工作流,缓解 MLLM 视觉检索能力不足
  • 可信度:中-低。建议核验。
  • 行动:列入"线索池";作为 deep-research VLM 评估的代表候选。

4. 高价值技术文章 / 行业

4.1 综述 / Survey

  • Multimodal Video Generation Models with Audio: Present and Future(TMLR,OpenReview https://openreview.net/forum?id=8i5vInabkm(✓ 已核验)
  • 覆盖 Veo 3.1、Sora 2、Kling 2.6、Wan 2.6、OVI、LTX 2 等多模态视频生成模型
  • 内容:架构演进 / 后训练方法 / 评估 / 应用 / 局限与挑战
  • 行动:作为"视频生成 + 音频联合"主题的系统综述底本
  • Vision-Language Foundation Models and Multimodal LLMs: A Comprehensive Survey(Preprints.org https://www.preprints.org/manuscript/202602.0467(✓ 已核验)
  • 历史 + 任务视角综述:dual-encoder 对比 → 跨模态融合 transformer → 统一生成模型
  • 行动:作为 VLM/MLLM 入门与现状汇总参考

4.2 Substack / 行业线索

  • rasbt — Ahead of AI · LLM Research Papers 2026 (Jan–May) (✓ 已核验)
  • 来源:https://magazine.sebastianraschka.com/p/llm-research-papers-2026-part1
  • 多模态相关条目:
    • ViT-5: Vision Transformers for the Mid-2020s(arXiv:2602.08071)
    • LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs(arXiv:2602.00462)
  • 行动:把这两条同步到多模态主题(注意:这两个 ID 为 2602.x 格式,需要人工核验 abs 页真实存在)。
  • nathanbenaich — State of AI · April 2026 newsletter (✓ 已核验)
  • 来源:https://nathanbenaich.substack.com/p/state-of-ai-april-2026-newsletter
  • 多模态/视频生成相关:Runway 拿到 $315M Series E($5.3B 估值),定位"AI 视频 + world models"
  • 行动:作为"视频生成创业生态"信号记录;与 Wan 2.2、Seedance 2.0 形成生态-技术对照
  • almosttimely — Where AI is Going in 2026(Chris Penn, 2025-12-21) (✓ 已核验)
  • 来源:https://almosttimely.substack.com/p/almost-timely-news-where-ai-is-going
  • 主要面向 marketing/business;与本研究主线弱关联,仅作背景
  • Deep (Learning) Focus — Vision Large Language Models (vLLMs)(Cameron R. Wolfe) (✓ 已核验)
  • 来源:https://cameronrwolfe.substack.com/p/vision-llms
  • 系统讲解 vLLM 架构(decoder-only transformer + 视觉前端),适合新人入门

4.3 行业 / 开源模型动态

  • Wan 2.2 全家族开源(Alibaba Tongyi Wanxiang,2025-07-28):T2V/I2V/TI2V/S2V 多版本,已被 Scenario、Vast.ai、ComfyUI 集成
  • Seedance 2.0 论文 + 模型卡(ByteDance Seed,2026-04):arXiv:2604.14148
  • Audio Flamingo Next HF 权重(NVIDIA):nvidia/audio-flamingo-next-hfnvidia/audio-flamingo-next-think-hf 已开放
  • Movie Gen 持续作为 audio-video 联合生成的"首批"标志(Meta,2024 起多次更新)

4.4 评测与榜单

  • HallusionBench Leaderboardhttps://llm-stats.com/benchmarks/hallusion-bench(✓ 已核验)
  • 当前榜首:Qwen3.5-27B(Alibaba Cloud / Qwen Team),0.700;16 个模型在榜
  • 行动:作为 MLLM 视觉-语言幻觉的 baseline 参考
  • ImageCLEF 2026 MultimodalReasoninghttps://www.imageclef.org/2026/multimodalreasoning(✓ 已核验)
  • 任务更新:扩展多选题 + 引入新挑战 VLM 推理的任务
  • 时间线:participant papers 截止 2026-05-28(已过);CEUR-WS 工作笔记
  • 行动:作为 shared task 参照

5. 分类标签汇总

  • video-genWan 2.2Seedance 2.0Movie GenThinking with VideoMultimodal Video Generation with Audio (survey)
  • audio-genUniSonate(待核验)、Audio Flamingo Next
  • image-genImage Diffusion Preview with Consistency Solver
  • vlm-evalVisuLogicVS-BenchReactBench(待核验)、VDR-Bench(待核验)
  • vlm-overviewViT-5LatentLens
  • industryrasbt 2026 part1nathanbenaich State of AI April 2026Wan 2.2 开源
  • shared-taskImageCLEF 2026 MultimodalReasoning

6. 建议处理

6.1 是否建议精读

  • 必读(精读 3–5 篇): 1. Seedance 2.0(arXiv:2604.14148)— 视频生成 + 音频联合的统一架构范本 2. Wan 2.2 README / 官方 blog— 开源 MoE video diffusion 标杆 3. Thinking with Video(arXiv:2511.04570 v2)— 视频作为多模态推理媒介的新范式 4. VisuLogic(ICLR 2026)— VLM 视觉推理能力的硬证据 5. VS-Bench(CVPR 2026 Oral)— VLM 多智能体战略环境评测

6.2 反方审稿候选

  • Thinking with Video:是否真的"统一"?还是把视觉推理转嫁到视频生成模型的隐藏能力上?需审 Sora-2 vs GPT-5 差异来源(数据?规模?微调?)
  • Seedance 2.0:world complexity 是否只是榜单数字?需核验 SeedVideoBench 2.0 是否有偏置
  • Wan 2.2:MoE 在视频扩散里是否真带来"质量 + 效率"双优?需对照稠密基线

6.3 主题页更新建议

  • research-kb/topics/multimodal/video-generation.md
  • 新增条目:Wan 2.2(开源)、Seedance 2.0(闭源)、Movie Gen(历史锚)、Thinking with Video(推理范式)
  • 新增综述 Multimodal Video Generation with Audio (TMLR)
  • research-kb/topics/multimodal/audio-generation.md
  • 新增:Audio Flamingo Next(NVIDIA,长音频 + T-CoT)、UniSonate(待核验)
  • research-kb/topics/multimodal/vlm-evaluation.md
  • 新增:VisuLogic、VS-Bench、ReactBench(待核验)、VDR-Bench(待核验)、HallusionBench leaderboard 现状
  • research-kb/topics/multimodal/image-generation.md
  • 新增:Image Diffusion Preview with Consistency Solver(低步数预览)
  • research-kb/topics/llm/architecture-overview.md
  • 引用 rasbt 2026 part1 中 ViT-5、LatentLens

6.4 建议写入文件路径

  • 主文件:/shared/research-kb/inbox/flyp/2026-06-24-multimodal-weekly-digest.md(本文件)
  • 待人工核验线索池(建议下个 cron 周期补查):
  • /shared/research-kb/inbox/flyp/2026-06-24-pending-verify-arxiv2604-2605.md
  • 同步候选(已存在,本期不重复写入):
  • /shared/research-kb/inbox/flyp/2026-06-17-thinking-with-video-short-review.md
  • /shared/research-kb/inbox/flyp/2026-06-18-multimodal-positional-evidence.md

7. 待人工确认的问题

  1. arXiv ID 真实性核验:以下 ID 的 abs 页是否真实存在?请优先核验(5 篇): - 2604.14148(Seedance 2.0,HF 已确认可访问,但建议直接看 arXiv 摘要) - 2604.22209(UniSonate) - 2605.29579(ReactBench) - 2602.02185(VDR-Bench) - 2511.04570(Thinking with Video,HTML v2 可访问)
  2. Wan 2.2 是否有官方 arXiv paper? 官方仓库与 blog 已开源,但搜索未找到独立 arXiv 论文条目,建议确认是否在 ICLR/CVPR 投稿。
  3. rasbt 提到的 ViT-5(2602.08071)和 LatentLens(2602.00462):是否真实存在?是否需要单独精读?
  4. Seedance 2.0 paper 的全文核验:架构图、SeedVideoBench 2.0 题面、Arena.AI 公榜数字出处
  5. Thinking with Video 的 Sora-2 实验设置:是否使用 API 调用而非本地权重?是否有评测协议被精心设计过?
  6. 是否需要补一份"audio-video joint generation 主题页"?本期已经积攒 Movie Gen / Seedance 2.0 / OVI / Wan 2.2 S2V / TMLR survey 五条素材。

8. 本期外部动作汇总

  • 写入文件:1 份
  • /shared/research-kb/inbox/flyp/2026-06-24-multimodal-weekly-digest.md
  • 未写入其它目录:严格遵守 flyP 命名空间边界;未触 review/published/、未执行 git commit/push/gh pr
  • 不复制任何 Substack 长文:仅做链接引用 + 中文摘要 + 评价