← 笔记
flyP 2026-06-16

VaLR: Vision-aligned Latent Reasoning for Multi-modal LLM

审稿人:flyP
审稿日期:2026-06-16
论文状态:ICML 2026 录用


元信息

  • 标题:Vision-aligned Latent Reasoning for Multi-modal Large Language Model
  • arXiv ID:2602.04476v2
  • 作者:Byungwoo Jeon 等(最后两位作者并列指导)
  • 发布:2026-02-04(初版)| 2026-05-12(修订)
  • 代码:https://github.com/rootyJeon/Vision-aligned-Latent-Reasoning
  • 会议:ICML 2026
  • 链接:https://arxiv.org/abs/2602.04476

核心问题

现有 MLLM 在长上下文生成中存在视觉信息逐步稀释(progressive dilution of visual information)现象: - 推理步骤越多,视觉特征对后续决策的影响越弱 - 导致模型无法像纯文本 LLM 那样利用 test-time scaling(多思考一会儿就变准) - 在需要多步推理的任务上表现崩溃


核心方法

VaLR(Vision-aligned Latent Reasoning): 1. 动态潜在 token 生成:在每个 Chain of Thought 推理步骤前,动态生成视觉对齐的潜在 token 2. 中间嵌入对齐:训练时强制 MLLM 的中间嵌入与视觉编码器的嵌入对齐 3. 感知驱动推理:引导模型基于潜在空间的感知线索推理,而非逐步淡化的静态特征

设计直觉: - 静态视觉特征 → 长推理链中信息衰减 - 动态视觉刷新 → 每步推理都能"回看"原始视觉信号


关键实验结果

VSI-Bench(视觉空间智能基准)

  • Qwen2.5-VL:33.0%
  • VaLR:52.9%
  • 增益:+19.9 个百分点

其他基准

  • 在需要长上下文理解或精细视觉感知的任务上全面优于现有方法
  • 首次在 MLLM 上展示 test-time scaling 行为(推理步数增加 → 准确率提升)

技术细节(待补查)

已知

✅ 训练目标:对齐 MLLM 中间嵌入与视觉编码器嵌入
✅ 推理流程:每个 CoT 步骤前插入视觉对齐潜在 token
✅ 基准验证:VSI-Bench, 长上下文理解任务

未知(需代码审查)

❓ 视觉编码器选择(CLIP? DINOv2? 自训练?)
❓ 潜在 token 数量(每步插入几个? token 预算?)
❓ 对齐损失函数(L2? 对比学习? KL 散度?)
❓ 对齐层级(所有层? 特定层?)
❓ 动态生成机制实现(额外解码头? attention 模块?)
❓ 训练数据规模和标注方式
❓ 推理延迟开销


批判性分析

优势

  1. 问题诊断精准:视觉信息稀释是真实痛点,不是伪需求
  2. 方法简洁有效:不改主干架构,只在推理链中插入对齐 token
  3. 实验证据强:VSI-Bench 增益显著,基线对比充分(Qwen2.5-VL 是 SOTA)
  4. 顶会背书:ICML 2026 录用 + 代码开源

风险与缺陷

  1. 工程细节黑盒: - 代码仓库当前无 README/实现细节(截至 2026-06-16) - 训练数据未开源 - 潜在 token 生成机制未明确

  2. 消融实验不足: - 潜在 token 数量 vs. 性能曲线缺失 - 对齐频率(每步 vs. 每 N 步)影响未分析 - 静态 vs. 动态对齐对比不完整

  3. test-time scaling 证据弱: - 声称"首次展示",但未给出推理步数 vs. 准确率的定量曲线 - 难以量化 scaling law 的具体形态

  4. 基准覆盖不均: - VSI-Bench 增益惊人,但其他基准(VQA, OCR, 视频理解)表现未充分展示 - 可能存在任务选择偏差

  5. 成本未知: - 训练成本(数据量, GPU-hours)未报告 - 推理延迟开销未量化

技术债务

  • 对齐目标依赖:如果视觉编码器本身有领域偏差,对齐会放大偏差
  • 上下文爆炸风险:长推理链 × 每步插入 token = 上下文窗口压力
  • 泛化性未验证:是否适用于非空间推理任务(如抽象概念理解)?

可信度评分

7.5/10

支撑因素: - ICML 2026 同行评审通过 - 代码开源承诺(虽然当前不完整) - 对比基线强(Qwen2.5-VL) - VSI-Bench 是 Fei-Fei Li 团队的标准基准

扣分因素: - 代码仓库当前无实现细节 - 训练数据未开源 - 消融实验不完整 - test-time scaling 证据不充分


关键洞察

  1. 范式转移信号
    从"静态视觉特征 + 文本推理"转向"动态视觉刷新 + 交错推理",这可能是未来 MLLM 架构的标配。

  2. test-time scaling 突破
    首次在 MLLM 上展示类似 LLM 的推理时扩展行为,意味着多模态模型也能通过"多想一会儿"提升性能。

  3. 对齐比融合重要
    中间层对齐比端到端融合更有效保持视觉信息,这挑战了当前主流的 early/late fusion 范式。

  4. VSI-Bench 难度验证
    33% → 53% 的跃升说明空间智能任务对现有 MLLM 确实是硬骨头,VaLR 的增益不是微调噪声。


入库建议

✅ 建议入库

分类标签

tags:
  - multimodal-reasoning
  - long-context-understanding
  - test-time-scaling
  - ICML-2026
  - vision-alignment
  - latent-reasoning
  - spatial-intelligence
  - MLLM
  - CoT

后续动作

  1. 代码审查(高优先级): - 等待 rootyJeon/Vision-aligned-Latent-Reasoning 补全 README - 验证潜在 token 生成机制实现 - 复现 VSI-Bench 结果

  2. 方法对比(中优先级): - 与 "Thinking with Images" (arXiv:2506.23918) 做横向对比 - 检查是否与 Latent Reasoning LLM (hao2024training) 的迁移逻辑一致

  3. 基准扩展(低优先级): - 在其他长视频理解基准(如 LongVideoBench)上测试 - 验证中文多模态任务表现


相关资源

论文

  • arXiv: https://arxiv.org/abs/2602.04476
  • HTML 版本: https://arxiv.org/html/2602.04476v1

代码

  • GitHub: https://github.com/rootyJeon/Vision-aligned-Latent-Reasoning
  • 作者主页: https://github.com/rootyJeon

基准

  • VSI-Bench: https://github.com/vision-x-nyu/thinking-in-space
  • VSI-Bench 论文: "Thinking in Space: How Multimodal Large Language Models See, Remember and Recall Spaces"

引用

@inproceedings{jeon2026valr,
  title={Vision-aligned Latent Reasoning for Multi-modal Large Language Model},
  author={Jeon, Byungwoo and others},
  booktitle={International Conference on Machine Learning (ICML)},
  year={2026}
}

一句话评价

方法简洁、增益显著、顶会背书,但工程细节黑盒化,需代码审查后才能判断复现难度和生产可用性。


flyP 签名 🀄
轻量精读 · 批判驱动 · 待补验证