2026-06-10 多模态文献简报

今日主题：多模态、图像生成、音频生成、视频生成、视觉语言模型
检索来源：arXiv、OpenReview ICLR 2026、Papers with Code、GitHub Trending、CSDN
生成时间：2026-06-10 09:10 CST
实例：flyP

新增候选概览

本周（2026-06-03 至 06-10）多模态领域重点进展：

音频生成：Audio Flamingo Next、AudioX 统一框架 (ICLR 2026)
视频生成：Bernini (MLLM + DiT 语义规划)、视频扩散模型持续演进
多模态推理评估：EMMA benchmark (ICLR 2026)、VLM 评估新范式
图像生成：对话式生成、多主体上下文生成 (WACV 2026)

必读论文 (Top 5)

1. Audio Flamingo Next: Next-Generation Open Audio-Language Models

arXiv: 2604.10905 (2026-04-13)
机构: NVIDIA + 马里兰大学
摘要: 下一代音频-语言模型，支持语音/环境音/音乐理解和推理，最长 30 分钟输入，引入 Temporal Audio Chain-of-Thought（时间戳推理），100 万小时数据集，20 个 benchmark 领先。
亮点:
Temporal CoT：中间推理步骤显式对齐时间戳
课程训练：pre-training → mid-training → post-training
三个开源变体：AF-Next-Instruct / Think / Captioner
标签: audio-generation multimodal reasoning benchmark
建议: 精读，音频多模态新范式

2. Bernini: Latent Semantic Planning for Video Diffusion

arXiv: 2605.22344 (2026-05-21)
机构: 字节跳动 (Bernini Team)
摘要: 统一视频生成和编辑框架。MLLM 做语义规划（在 ViT embedding space 预测目标表示），DiT 渲染像素。分工明确：MLLM 推理语义、DiT 渲染细节。引入 Segment-Aware 3D RoPE 和 chain-of-thought 推理。
亮点:
分离职责：MLLM (semantic planning) + DiT (pixel rendering)
两阶段训练：单独训练 + 轻量联合微调
SOTA 视频生成和编辑 benchmark
标签: video-generation multimodal diffusion planning
建议: 精读，视频生成新架构范式

3. AudioX: A Unified Framework for Anything-to-Audio Generation

arXiv: 2503.10522 (2025-03-13, ICLR 2026 Accepted)
机构: 多机构合作
摘要: 统一的 anything-to-audio 生成框架，融合文本/视频/音频多模态输入。核心设计：Multimodal Adaptive Fusion 模块，有效融合异构输入，增强跨模态对齐。构建 700 万样本高质量数据集 IF-caps。
亮点:
统一框架：text/video/audio → audio
结构化数据标注 pipeline
Text-to-audio 和 text-to-music SOTA
标签: audio-generation multimodal ICLR2026
建议: 精读，音频生成统一方案

4. EMMA: An Enhanced MultiModal ReAsoning Benchmark

OpenReview: v26vwjxOEz (ICLR 2026 投稿)
摘要: 针对多模态推理的挑战性 benchmark，覆盖数学/物理/化学/编程。任务要求高级跨模态推理，无法通过单模态独立推理解决。评估发现 SOTA MLLM 在复杂多步推理任务上仍有显著局限，即使使用 CoT 和 test-time compute scaling 仍表现不佳。
亮点:
有机多模态推理：不能拆解为单模态子任务
覆盖多学科：math / physics / chemistry / coding
暴露当前模型短板
标签: benchmark multimodal-reasoning evaluation ICLR2026
建议: 精读，多模态推理评估新基准

5. Benchmarks for Vision-Language Models in Urban Perception Should Be Reliability-Aware and Negotiated

arXiv: 2606.00871 (2026-06, ICML 2026 Accepted)
摘要: VLM 在城市感知场景的 benchmark 应该关注可靠性和协商机制。提出 VLM benchmark 设计新范式。
标签: vlm benchmark evaluation reliability
建议: 关注，VLM 评估方法论

高价值技术文章

CSDN 工程实践 (筛选标准：版本/环境/复现/源码分析)

暂无高价值 CSDN 文章。本周 CSDN 检索到的视频生成/扩散模型文章多为综述、理论介绍或标题党，缺乏版本、环境、命令、源码分析、真实排障经验等工程实践细节，不符合高价值收录标准。

分类标签汇总

audio-generation: AudioX、Audio Flamingo Next
video-generation: Bernini
multimodal-reasoning: EMMA
vlm: Urban Perception Benchmark
benchmark: EMMA、Urban Perception
evaluation: EMMA、VLM reliability
diffusion: Bernini、视频扩散模型
ICLR2026: AudioX、EMMA
ICML2026: Urban Perception VLM Benchmark

建议行动

精读推荐 (3 篇)： - Audio Flamingo Next (音频多模态新范式) - Bernini (视频生成新架构) - AudioX (统一音频生成框架)
Benchmark 跟进 (2 篇)： - EMMA (多模态推理评估) - Urban Perception VLM (可靠性评估)
主题页更新： - research-kb/topics/audio-generation.md 新增 AudioX、AF-Next - research-kb/topics/video-generation.md 新增 Bernini - research-kb/topics/multimodal-reasoning.md 新增 EMMA
反方审稿候选： - EMMA benchmark：评估是否真正测试有机多模态推理，还是仍可简化为单模态子任务？ - Bernini：MLLM + DiT 分工是否引入额外复杂度？相比端到端视频生成的 trade-off？

待人工确认的问题

Papers with Code 已下线：原 paperswithcode.com 于 2025-07 被 Meta 关闭，域名重定向至 Hugging Face Trending Papers，9327 个 benchmark leaderboard 不再维护。替代方案：CodeSOTA (live SOTA) 或 paperswithcode-data 存档 (历史 JSON)。是否需要调整检索策略？
CSDN 筛选标准：本周未收录 CSDN 文章，均为泛泛综述或标题党。是否需要放宽标准？当前要求：版本、环境、命令、源码分析、复现过程、真实排障经验。
OpenReview ICLR 2026 投稿：EMMA 等论文仍在审稿中，信息可能不完整。是否标注"投稿中"状态？
GitHub Trending 覆盖度：本周 GitHub 检索未发现高质量多模态生成新仓库，多为 Awesome 列表或老项目更新。是否需要扩展检索关键词？

建议写入路径

本文件: /shared/research-kb/inbox/flyp/2026-06-10-multimodal.md ✅ (已写入)
后续 registry: research-kb/registry/papers.jsonl (待主题页更新时批量写入)

生成规则遵守确认： - ✅ 中文输出 - ✅ 只写入 /shared/research-kb/inbox/flyp/ 目录 - ✅ 未读取其他实例目录，仅列出去重线索 - ✅ 未执行 git commit/push/pr 或 GitHub 写入操作 - ✅ 提供建议路径，等待串行合并任务处理 - ✅ 摘要引用，未复制全文 - ✅ 未输出 API key/Cookie/token - ✅ 分类标签已标注