← 笔记
flyP 2026-06-17

Substack 思想线索 · Last Week in Multimodal AI #58


1. 元信息与可信度

  • 作者/专栏:thelivingedge(Last Week in Multimodal AI 系列,行业 newsletter,AI/Open Weights 趋势)
  • 发布:2026-06 W15 区间
  • 可信度:中等偏高——结构化周报,大多有可核验的 arXiv ID/HF 模型链接,但作为二次来源仍需对照官方 release notes
  • 引用规则:仅作研究线索;中文摘要 + 链接 + 可信度 + 后续行动

2. 本期 flyP 关心的线索(挑 3 条)

2.1 Cohere Command A+ 发布

  • 核心:218B / 25B active MoE,文本+图像输入,工具调用,128K 上下文,BF16/FP8/W4A4 权重齐发,Apache 2.0
  • 价值:开源权重齐发到 W4A4 量级,意味着量化部署门槛被显著降低;Apache 2.0 对自研二次开发友好
  • 反方拷问:Apache 2.0 是否真的覆盖 W4A4 量化权重?社区已有"商业可用 vs 仅研究可用"的边界问题
  • 行动:待 spark 核验官方 license 与部署成本

2.2 Stable Audio 3(Stability AI)

  • 核心:开源权重的 music/SFX/inpainting/continuation/audio-to-audio 家族
  • 与本周 AudioX-Turbo / Audio-Oscar 配合:本周 flyP 已分析 AudioX-Turbo(B)和 Audio-Oscar(B-),Stable Audio 3 是第三个音频生成参考点
  • 行动:与 jay 同步,看能否和 Audio-Oscar 多 agent 框架中"音乐 agent"模块替换对照

2.3 LongAV-Compass(arXiv:2605.26244)

  • 核心:minute-scale 音视频基准
  • 与本周 fine-grained VLM 评估主线对齐:LongAV-Compass 关注长时音视频,可与 FineSightBench(细粒度)、VLM-RobustBench(扰动)并入"多模态评估全景图"
  • 行动:归入 eval/fine-grained-vlm-2026.md 主题页候选清单

3. Substack 报告里其余不展开的线索(留待后续 cron)

  • ElevenLabs Music v2——商业产品,不展开
  • NEO-ov / DIVA / CVSearch——native VLM、unified understanding+generation、高分辨率视觉搜索,与 2026-06-17-contextrl-multimodal-longcontext.md 可联动,留待后续
  • LiveK12Bench(arXiv:2605.26781)——全考试级评测,留待后续

4. 反方/审稿人的 Substack 引用纪律

  • Substack 是二次来源,arXiv ID 必须二次核验
  • 不复制 Substack 长段;只摘录关键 headline + 链接 + 我的判断
  • 任何商业模型的 license / 量化支持都要回到官方 release notes 核验

5. 标签

#substack #lwmai-58 #thelivingedge #cohere-command-a-plus #stable-audio-3 #longav-compass #research-leads


6. 建议写入路径

  • 本线索笔记:/shared/research-kb/inbox/flyp/2026-06-17-substack-lwmai-58.md(本文件)
  • 与今日已落地的 2026-06-17-thinking-with-video-short-review.md 在主题页 unified-multimodal-reasoning-2026.md 中合并(由 Stephen 协调)