周三多模态文献总结 · 2026-06-17

整理人：flyP
整理时间：2026-06-17 23:11 (Asia/Shanghai)
主题：多模态、图像生成、音频生成、视频生成、视觉语言模型（VLM）
输出节奏：周三固定简报（本次为本周期第 4 篇）
上一期：/shared/research-kb/inbox/flyp/2026-06-17-seerepo-multimodal-coding-agent.md（同时段精读）

1. 今日主题与范围

聚焦近 7 天 arXiv/HF/Substack 涌现的多模态工作，覆盖： - 图像生成：扩散模型 + 统一多模态生成（理解/生成一体） - 视频生成：流式 talking portrait、unified 视频基础模型 - 音频生成：anything-to-audio、long-form 音频场景编排、open-weight music/SFX - VLM 评估：细粒度感知、空间推理、鲁棒性、思考范式（thinking with video） - 行业新闻：Qwen3.6、Kimi K2.6、Cohere Command A+、Stable Audio 3、ElevenLabs Music v2、Tencent HY-World 2.0、NVIDIA Lyra 2.0

去重检查：本周期 spark 24h digest（2026-06-17_2311、2026-06-17_1125）、tom/stephen 尚未产出 6-17 多模态专项；flyP 自身今天的精读 SeeRepo 已落地，不重复。

2. 检索来源

arXiv 全文搜索（cs.CV/cs.CL/cs.SD/cs.MM，2606.*）
Hugging Face Daily Papers / Trending Papers（2026-W14、W15）
Substack：thelivingedge（Last Week in Multimodal AI）、todatabeyond（Important LLM Papers）
CVPR 2026 Highlight / OpenAccess 公示
各家官方博客（Stability AI、ElevenLabs、Qwen、Cohere、HuggingFace Blog）

3. 新增候选概览（按主题分组）

3.1 图像生成 / 统一多模态生成

论文 / 产物	来源	核心	标签
UniCanvas（arXiv:2606.04264）	2026-06	扩散模型统一生成「文-图-文交织」内容；通过单像素画布在生成图时"画"文字，解决 MLLM 长文渲染差的问题	`#unified-mllm` `#text-in-image` `#diffusion`
UniDDT（arXiv:2606.16255）	2026-06	解耦的扩散 Transformer，把 ViT/LLM 冻结后只训练 projection + 扩散 decoder，用 flow-matching loss 联合优化	`#unified-mllm` `#decoupled-dit`
UVR / Unified Visual Safety Regulator（arXiv:2606.06875）	2026-06	训练无关的 MM-DiT 安全生成方法：限制不安全视觉 patch 的信息流；可同时覆盖 T2I 与 I2I	`#safety` `#mm-dit` `#training-free`
CoCo: Code as CoT for Text-to-Image	HF W11	用代码作 chain-of-thought，先输出代码描述再渲染，专注稀有概念生成	`#text-to-image` `#code-as-cot`
InternVL-U	HF W11	开源统一多模态（理解+推理+生成+编辑）	`#unified-mllm`

3.2 视频生成 / 流式

论文 / 产物	来源	核心	标签
Real-Time Streamable Talking Portrait VAEs（arXiv:2606.01620, CVPR 2026 Highlight）	2026-06	因果视频 VAE + 自回归 Rectified Flow Transformer，支持流式 talking portrait；可参考多张参考图	`#video-gen` `#streaming` `#talking-portrait` `#cvpr26-highlight`
Thinking with Video / VideoThinkBench（arXiv:2511.04570 v2）	2026-06	用 Sora-2 等视频生成模型做多模态推理；视频帧作为统一媒介；eyeballing puzzle 上超过 GPT-5 10%	`#video-reasoning` `#thinking-with-video` `#sora-2`
Tencent HY-World 2.0 / NVIDIA Lyra 2.0（Substack #54 报道）	2026-06	3D 世界模型毕业：直接产出可编辑 mesh/3DGS/点云，导入 Unity/Unreal/Blender/Isaac Sim	`#3d-world-model` `#asset-output`
AniGen（VAST-AI-Research, SIGGRAPH 2026）	Substack #54	单图生成可绑定骨骼的 3D 资产	`#3d-from-image` `#siggraph26`

3.3 音频生成

论文 / 产物	来源	核心	标签
AudioX-Turbo（arXiv:2606.12555）	2026-06	AudioX 的蒸馏版本；多模态 DiT + Distribution Matching Distillation + diffusion discriminator；4 步采样，NFE 减少 25×	`#audio-gen` `#distillation` `#flow-matching`
Audio-Oscar（arXiv:2606.07397）	2026-06	多 agent 音频场景生成框架：角色/音色/语音/时间线/非语音/后处理各自专精；附 ASG-Bench 评测集	`#audio-gen` `#multi-agent` `#scene-audio`
Stable Audio 3（Stability AI）	Substack #58 报道	开源权重的 music/SFX/inpainting/continuation/audio-to-audio 家族	`#audio-gen` `#open-weight`
ElevenLabs Music v2	Substack #58 报道	高质量商用音乐生成 API	`#audio-gen` `#commercial`
Borealis（HF Blog）	2026-06	音频-LLM 训练 recipe	`#audio-llm` `#training-recipe`
LongAV-Compass（arXiv:2605.26244）	Substack #58 报道	minute-scale 音视频基准	`#audio-video-eval`

3.4 VLM 评估 / 推理

论文 / 产物	来源	核心	标签
FineSightBench（arXiv:2606.07861, 25 页）	2026-06-05	控制 4–48px 物体尺寸，分离感知 vs 推理；发现感知在 12px 饱和、推理即便大尺度也持续错	`#vlm-eval` `#fine-grained` `#perception`
Med VQA Benchmark（arXiv:2606.02809）	2026-06	用 paired private 放射报告 + 3D 影像自动生成 VQA；包含 RADS 模板 + LLM 生成；脏实验显示 Lung CT 在盲评下闭源模型成绩反而更高（语言先验污染）	`#medical-vlm` `#vlm-eval` `#contaminated-bench`
VS-Bench（CVPR 2026 Oral）	2026	多 agent 战略环境 VLM 评测：15 个模型，最佳 46.6% 预测 / 31.4% return	`#vlm-eval` `#multi-agent` `#cvpr26-oral`
VLM-RobustBench（arXiv:2603.06148）	2026-03	49 类扰动 / 133 种设置；low-severity 几何扰动常比严重 photometric 退化更糟（low-severity glass-blur 掉 8pp，resample/elastic 最高 34pp）	`#vlm-eval` `#robustness`
AesEval-Bench / VRIQ / SpatiaLQA	2026-02~03	美学 / 视觉推理 IQ / 空间逻辑；统一评估 + 细粒度诊断	`#vlm-eval` `#aesthetic`
NEO-ov / DIVA / CVSearch（arXiv:2605.*）	Substack #58	native VLM、unified understanding+generation、高分辨率视觉搜索	`#native-vlm` `#high-res-vision`
LiveK12Bench（arXiv:2605.26781）	Substack #58	全考试级评测	`#vlm-eval` `#full-exam`

3.5 行业新闻 / 开源模型

Kimi K2.6（Moonshot）：1T MoE / 32B active / 384 experts（8 routed + 1 shared），256K context，原生 INT4，400M MoonViT 编码器（图像+视频），4 个变体（Instant/Thinking/Agent/Agent Swarm，sub-agent 300+ / 4000 步）。HLE-Full w/tools 54.0 > GPT-5.4 (52.1) / Claude Opus 4.6 (53.0) / Gemini 3.1 Pro (51.4)。
Qwen3.6-35B-A3B（Apache 2.0）：256 experts (8+1 routed), 3B/35B active, 262K context, YaRN 可扩 1.01M, 83.7 VideoMMMU。"Thinking Preservation" 在多轮 agent 保持推理痕迹。
Cohere Command A+（Apache 2.0）：218B/25B active MoE，文本+图像输入，工具调用，128K 上下文，BF16/FP8/W4A4 权重齐发。
NVIDIA Nemotron 3 Super（2026-03-10 重访）：120B/12B active hybrid Mamba-Transformer MoE，1M 上下文，LatentMoE（4 专家成本 1），MTP 层，NVFP4 预训练；2.2× GPT-OSS-120B、7.5× Qwen3.5-122B 吞吐。
Grok STT $0.10/hr、TTS $4.20/1M chars、Gemini 3.1 Flash TTS $1/$20（70+ 语言，含 inline audio tag）。
Claude Opus 4.7 SWE-Bench Pro +11。
Kimi K2.6 13 小时自治会话、4000 工具调用。

3.6 Substack 资源（仅作研究线索）

Last Week in Multimodal AI #54（thelivingedge.substack.com，2026-06 早期）
文章链接：https://thelivingedge.substack.com/p/last-week-in-multimodal-ai-54-open
作者：thelivingedge（行业 newsletter，AI/Open Weights 趋势）
可信度：中等偏高，结构化追踪周报，多个 HuggingFace 模型链接可二次验证
行动：作为"行业开源模型 + 多模态应用"线索池，需对照官方 release notes 核验
Last Week in Multimodal AI #58（thelivingedge.substack.com）
链接：https://thelivingedge.substack.com/p/last-week-in-multimodal-ai-58-open
覆盖 Cohere Command A+、Stable Audio 3、ElevenLabs Music v2、arXiv:2605.* 一批 VLM/视频/音频基准（NEO-ov、DIVA、CVSearch、LiveK12Bench、LongAV-Compass）
Important LLM Papers for the Week #504（todatabeyond.substack.com）
链接：https://todatabeyond.substack.com/p/important-llm-papers-for-the-week-504
作者：Youssef Hosni（在 X/LinkedIn 定期发"重要论文周报"，整理度高，但带订阅引导）
可信度：中等，二次引用需对齐 arXiv ID
行动：作为"STEP3-VL-10B"等非头号实验室工作的发现入口；引用时把 arXiv 编号在脚注标出
注：未在 inbox/flyp/ 中重复整段 Substack 内容；仅作摘要 + 链接 + 后续行动。

4. 必读 3–5 篇

按"主题覆盖度 + 影响力 + 复现/落地可行性"排序，建议本周先看：

Thinking with Video（arXiv:2511.04570v2） - 真正把"视频生成模型能否统一多模态推理"摆到台面，给出 VideoThinkBench 评测；在 eyeballing puzzle 上 Sora-2 超过 GPT-5 10%，是对"VLMs 已经在多模态推理上见顶"共识的有力反驳。 - 行动：作为"统一多模态生成"主题页的核心案例；需要确认 v2 是否补全了 MMMU 细节。
AudioX-Turbo（arXiv:2606.12555） - 用 DMD 把 AudioX 蒸馏到 4 步；NFE 减少 25× 仍然 SOTA。对落地音频生成服务（播客、配乐、Foley）有直接工程价值。 - 行动：让 spark/jay 评估 4 步采样在生产中的延迟/质量平衡。
Real-Time Streamable Talking Portrait VAEs（arXiv:2606.01620, CVPR 2026 Highlight） - 因果 VAE + 块状自回归生成是当前 streaming avatar 的工程范式；CVPR Highlight 意味着 oral 质量。 - 行动：作为"数字人 / 实时口播"主题的标杆方案；细节待精读（GitHub 是否同步放权重）。
FineSightBench（arXiv:2606.07861） - 25 页严肃 benchmark：感知 12px 饱和、推理持续失败。这是对"前沿 VLM 已经看懂图了"叙事的冷静反驳。 - 行动：与 contextrl-multimodal-longcontext.md (2026-06-17) 串成"上下文压缩 + 细粒度感知"主线；建议精读 §3 失败模式分析。
Audio-Oscar（arXiv:2606.07397） - 多 agent 编排复杂音频场景的范式工作；ASG-Bench 填补了"长时音频场景生成"评测空白。 - 行动：与 2026-06-16-VaLR-vision-aligned-latent-reasoning.md 中"latent reasoning"思想对比，看是否能迁移到"多模态 latent planning"。

5. 高价值技术文章

Fine-Tuning FLUX.2 [klein] with a LoRA under 60 minutes（HF Blog by black-forest-labs）
链接：https://huggingface.co/blog/black-forest-labs/flux-2-klein-lora
价值：开源图像生成 LoRA 端到端教程；含训练数据组织、参数选择、显存控制。符合 CSDN 高价值工程实践标准。待 jay 复现并写中文工程笔记。
MTEB Leaderboard v3（HF Blog by Samoed）
链接：https://huggingface.co/blog/Samoed/mteb-v3-leaderboard
价值：多模态 embedding 评测 leaderboard v3，引入新数据集与多向量协议；与 2026-06-17-mmlongembed.md 互补。
Eyes, ears, and a voice: building Reachy Mini's media stack（HF Blog by pollen-robotics）
链接：https://huggingface.co/blog/pollen-robotics/reachy-mini-media-stack
价值：开源机器人 + 视觉/音频/语音模态集成的实战案例。

6. 分类标签

#multimodal #image-generation #video-generation #audio-generation #vlm #vlm-eval #diffusion #unified-mllm #text-in-image #mm-dit #safety #video-reasoning #sora-2 #thinking-with-video #3d-world-model #audio-llm #talking-portrait #cvpr26 #siggraph26 #open-weight #multi-agent #fine-grained-perception #medical-vlm #benchmark #eval #engineering #distillation #flow-matching #mm-prod #survey #negative-result

7. 是否建议精读 / 反方审稿 / 主题页更新

类别	建议	备注
精读	FineSightBench（arXiv:2606.07861）	与本周 `contextrl-multimodal-longcontext.md` 串成"细粒度感知"主线；和 `VaLR-vision-aligned-latent-reasoning.md` 形成"latent reasoning" vs "细粒度像素"两条并行线
精读	AudioX-Turbo（arXiv:2606.12555）	工程价值高；可让 jay 复现蒸馏流水线
精读	Audio-Oscar（arXiv:2606.07397）	多 agent 范式；可作为下周 VLM-Agent 多 agent 主题的引子
反方审稿	Thinking with Video（arXiv:2511.04570v2）	需要核验 v2 是否补全 MMMU 细节 + 控制 Sora-2 推理时算力是否对等
反方审稿	Med VQA Benchmark（arXiv:2606.02809）	闭源模型在 Lung CT 盲评超过 sighted 的反直觉结论，要看"是否限定 prompt / 是否漏掉图就报错"等细节
主题页更新	`unified-multimodal-generation.md`	收录 UniCanvas、UniDDT、InternVL-U、CoCo、NEO-ov、DIVA
主题页更新	`vlm-evaluation-2026.md`（如尚无则新建）	收录 FineSightBench、VS-Bench、VLM-RobustBench、AesEval-Bench、VRIQ、SpatiaLQA、LiveK12Bench、NEO-ov
主题页更新	`audio-gen-landscape-2026.md`	收录 AudioX-Turbo、Audio-Oscar、Stable Audio 3、ElevenLabs Music v2、Borealis、Audio-LM Survey、AudioX v1
主题页更新	`video-gen-streaming.md`	收录 Talking Portrait VAE、UniVBench、VBench-2.0、Video-Bench、HA-Video-Bench
行业追踪	周报层	Kimi K2.6 / Qwen3.6-35B-A3B / Cohere Command A+ / Nemotron 3 Super / Grok STT-TTS / Gemini 3.1 Flash TTS — 已在 §3.5 列表；可让 spark 整合进系统向周报

8. 建议写入文件路径

本简报：/shared/research-kb/inbox/flyp/2026-06-17-multimodal-weekly-digest.md（即本文件）
同步建议（由 Stephen 协调）：
research-kb/published/multimodal/unified-multimodal-generation.md（增量更新）
research-kb/published/eval/vlm-evaluation-2026.md（增量更新；如尚无则新建）
research-kb/published/audio-gen-landscape-2026.md（增量更新；如尚无则新建）
research-kb/published/video-gen-streaming.md（增量更新；如尚无则新建）
引用条目（追加）：
research-kb/registry/papers.jsonl（每篇一行：arxiv_id、title、date、tags、url、key_finding）

9. 待人工确认 / 后续行动

Thinking with Video v2 的 MMMU 评测细节：是 only-sora-2 还是多家视频生成模型横向对比？需要打开 arXiv HTML 全文确认。
FineSightBench 是否公开 prompt 与被测模型 API 调用脚本？25 页报告里 §3 失败模式分析需精读。
AudioX-Turbo 蒸馏管线是否依赖 AudioX-Base 的闭源权重？落地到自研音频生成服务时，教师模型许可是必须确认的硬约束。
Med VQA Benchmark 的"闭源模型在 Lung CT 盲评超过 sighted"现象需要额外论文证据（可能在 3 个数据集上是反的）；建议在 flyP 下一轮精读中独立验证。
Kimi K2.6 / Qwen3.6-35B-A3B 是闭源 API 还是开源权重？需让 spark 进一步核对 release 渠道（HF 模型卡）。
Substack 时效性：todatabeyond 引用 STEP3-VL-10B 来自 StepFun 的技术报告，需要直接到 StepFun 官方 release 验证论文 ID 与成绩是否一致。
是否要新增"细粒度 VLM 评估"主题页？本周已出现 FineSightBench、FineCops、MLLMs-Know-Where-to-Look 等多篇同方向工作，建议周四由 flyP 出一篇合集型精读。
是否在 spark 周报中加入"开源多模态模型矩阵"表格（Kimi K2.6 / Qwen3.6-35B-A3B / Cohere Command A+ / Nemotron 3 Super），由 spark 决定。

10. 引用模板

@online{flyp_multimodal_digest_2026_06_17,
  author       = {flyP},
  title        = {周三多模态文献总结 · 2026-06-17},
  year         = {2026},
  month        = {6},
  day          = {17},
  url          = {/shared/research-kb/inbox/flyp/2026-06-17-multimodal-weekly-digest.md},
  note         = {Anan research-kb 共享草稿；包含 UniCanvas / UniDDT / AudioX-Turbo / Audio-Oscar / FineSightBench / Streamable Talking Portrait VAE / Med VQA / Thinking with Video v2 / Substack #54 #58 行业追踪}
}

11. 一句话审稿意见

本周的多模态主线已经明显从"单模态扩散 + VLM"演化为"统一多模态生成（理解+生成一体）"+"细粒度评估"+"低成本多模态推理"三条平行赛道；优先精读 FineSightBench 与 AudioX-Turbo，再用 1–2 周时间把"统一多模态生成"主题页补齐到能内部引用的程度。