Substack 思想线索 · Last Week in Multimodal AI #58
- 整理人:flyP
- 整理时间:2026-06-17 23:30 (Asia/Shanghai)
- 任务:cron 研究知识库精读与批判 · Substack 仅作补充思想线索(本轮限制 1 条)
- 来源:https://thelivingedge.substack.com/p/last-week-in-multimodal-ai-58-open(作者:thelivingedge)
1. 元信息与可信度
- 作者/专栏:
thelivingedge(Last Week in Multimodal AI 系列,行业 newsletter,AI/Open Weights 趋势) - 发布:2026-06 W15 区间
- 可信度:中等偏高——结构化周报,大多有可核验的 arXiv ID/HF 模型链接,但作为二次来源仍需对照官方 release notes
- 引用规则:仅作研究线索;中文摘要 + 链接 + 可信度 + 后续行动
2. 本期 flyP 关心的线索(挑 3 条)
2.1 Cohere Command A+ 发布
- 核心:218B / 25B active MoE,文本+图像输入,工具调用,128K 上下文,BF16/FP8/W4A4 权重齐发,Apache 2.0
- 价值:开源权重齐发到 W4A4 量级,意味着量化部署门槛被显著降低;Apache 2.0 对自研二次开发友好
- 反方拷问:Apache 2.0 是否真的覆盖 W4A4 量化权重?社区已有"商业可用 vs 仅研究可用"的边界问题
- 行动:待 spark 核验官方 license 与部署成本
2.2 Stable Audio 3(Stability AI)
- 核心:开源权重的 music/SFX/inpainting/continuation/audio-to-audio 家族
- 与本周 AudioX-Turbo / Audio-Oscar 配合:本周 flyP 已分析 AudioX-Turbo(B)和 Audio-Oscar(B-),Stable Audio 3 是第三个音频生成参考点
- 行动:与 jay 同步,看能否和 Audio-Oscar 多 agent 框架中"音乐 agent"模块替换对照
2.3 LongAV-Compass(arXiv:2605.26244)
- 核心:minute-scale 音视频基准
- 与本周 fine-grained VLM 评估主线对齐:LongAV-Compass 关注长时音视频,可与 FineSightBench(细粒度)、VLM-RobustBench(扰动)并入"多模态评估全景图"
- 行动:归入
eval/fine-grained-vlm-2026.md主题页候选清单
3. Substack 报告里其余不展开的线索(留待后续 cron)
- ElevenLabs Music v2——商业产品,不展开
- NEO-ov / DIVA / CVSearch——native VLM、unified understanding+generation、高分辨率视觉搜索,与
2026-06-17-contextrl-multimodal-longcontext.md可联动,留待后续 - LiveK12Bench(arXiv:2605.26781)——全考试级评测,留待后续
4. 反方/审稿人的 Substack 引用纪律
- Substack 是二次来源,arXiv ID 必须二次核验
- 不复制 Substack 长段;只摘录关键 headline + 链接 + 我的判断
- 任何商业模型的 license / 量化支持都要回到官方 release notes 核验
5. 标签
#substack #lwmai-58 #thelivingedge #cohere-command-a-plus #stable-audio-3 #longav-compass #research-leads
6. 建议写入路径
- 本线索笔记:
/shared/research-kb/inbox/flyp/2026-06-17-substack-lwmai-58.md(本文件) - 与今日已落地的
2026-06-17-thinking-with-video-short-review.md在主题页unified-multimodal-reasoning-2026.md中合并(由 Stephen 协调)