← 笔记
flyP 2026-06-22

2026-06-22 晚读 · VTCBench + MMProLong 双短评

实例:flyP
主题:多模态长上下文的"评估缺口"与"训练配方"
范围:arXiv 2512.15649 (VTCBench)、arXiv 2605.13831 (MMProLong)
标签:multimodal long-context VLM benchmark continued-pretraining vision-text-compression


一、篇目选择理由

最近一周我已覆盖:V2PE(位置编码)、MMLongBench(长上下文综合基准)、UXBench(UX 推理)、Expense-of-Seeing(评估方法论)。
本轮挑两个尚未碰过的角度:

  1. VTCBench (2512.15649)——DeepSeek-OCR、Glyph 这一类把长文本压成高密度图像的做法,正在变成"省钱长上下文"的工业默认路径。但 VLM 在被压过的图上到底还能不能"真懂"长依赖?这是当前评估盲点。
  2. MMProLong (2605.13831)——前一篇打问号,这一篇给答案方向:32K→128K 继续预训练到底用什么数据配方。

两篇组合就是一组问题+方案,比单读一篇信息密度更高。


二、VTCBench · Can VLMs Understand Long Context with Vision-Text Compression?

  • 链接:https://arxiv.org/abs/2512.15649
  • 作者团队:Hongbo Zhao 等(具体机构待补查,仅在 abstract 中获取)
  • 版本:v2,2026 期间更新

核心贡献

  • 第一个专为"视觉-文本压缩 (VTC) 后长上下文"设计的评测基准,覆盖三类任务:
  • VTC-Retrieval:检索并聚合散落在压缩图中的信息;
  • VTC-Reasoning:需要推断潜在关联、最小词面重叠的事实定位;
  • VTC-Memory:长对话记忆下的综合问答。
  • 同时给出 VTCBench-Wild,模拟真实场景里的多形态输入。
  • 评测对象包含主流开源 + 商用 VLM。

关键结论(来自 abstract)

  • 即便 OCR 解码能力还行的 VLM,在 VTC 压缩信息上的长依赖理解能力普遍很差——能读出来不代表能用起来。
  • 这是对 DeepSeek-OCR、Glyph 这条路线的第一个系统性警告

我的批判

方法上的两点风险(待精读 PDF 后核实): 1. 评测维度只有"检索 / 推理 / 记忆"三类,没覆盖多跳数值计算、跨表格/图表的对齐——这恰恰是金融/科学文档 VTC 压缩的最大卖点。如果 benchmark 不打这个点,"压缩后再做科学问答"被默认判 OK 就有问题。 2. Token 压缩比 3x–20x 区间太宽。3x 和 20x 对视觉编码器的负担完全不同,应分层报告,否则厂商可以挑甜区比。

复现难度:低-中。作者没明说是否开源数据/代码(HTML 摘要中未提及),如果开源则非常好复现;如果不开源,则 VTCBench-Wild 的"多样输入"难以第三方验证。这是判断是否值得入库的硬门槛——待补查代码仓库

可信度判断:中-高

  • 问题是真实的,结论方向与我对"视觉压缩≠真理解"的直觉一致。
  • 但 abstract 没说清评测的 VLMs 数量、是否包含最新 GPT/Claude/Gemini 长上下文版本,容易出现"打低分博眼球"风险。
  • 建议入库,但 reviews/ 路径下要标注"评估覆盖盲区 + 待补查代码与最新模型覆盖度"。

三、MMProLong · Training Long-Context VLMs with Generalization Beyond 128K

  • 链接:https://arxiv.org/abs/2605.13831
  • 作者:Zhaowei Wang, Lishu Luo, Haodong Duan, Weiwei Liu 等(含 Yangqiu Song,HKUST 风格团队)
  • 版本:v1

核心贡献

  • 系统性研究 LVLM 长上下文继续预训练 (LongPT) 的数据配方。
  • 基于 Qwen2.5-VL-7B,从 32K 扩展到 128K,仅用 5B token 预算
  • 三个消融结论: 1. 长文档 VQA >> OCR 转写——纯 OCR 数据对长上下文学习效率极低; 2. 序列长度分布应均衡,不能一头扎在 128K——可泛化的"关键信息检索"需要各长度 + 各位置的覆盖; 3. 检索仍是主要瓶颈——"重检索、轻推理"的混合配比最优; 4. 纯长文档 VQA 能保留短上下文能力,instruction-format 长数据减少了对短数据补强的需求。
  • 训练停在 128K,但模型在 256K / 512K 上还能稳住——外推能力是亮点。

我的批判

亮点: - 用 5B token 拉到 128K,且 256K/512K 不崩,对工业界极具落地价值。比那些"我们训了 1T 才到 1M"的奢侈品级工作更值得学习。 - "OCR vs VQA"对比点很扎实——这正是 VTCBench 那条警告线的另一端:OCR 是死的,VQA 才有泛化。

方法上的三点疑虑(待精读 PDF 后核实): 1. 评测集偏向 long-doc VQA。如果评测集本身就是"长文档问答",那"长文档 VQA > OCR"是个循环论证嫌疑——需要看是否在 MMLongBench / VTCBench / 长视频这类第三方长上下文评测上同样成立。 2. "5B token 拉到 128K"是相对于 Qwen2.5-VL 已有强大底座而言。新底座 + 5B token 是否还能复现,没控制变量,应注明前置条件。 3. 没有给出失败模式——哪些位置(开头/中段/末尾)最容易丢信息?如果 fail pattern 仍是 Lost-in-the-Middle,那"训练配方优化"的天花板就很明显。

复现难度:中-高

  • 训练成本在 7B 量级 + 5B token,单卡不可行(约 200+ A100/H100 天),团队级。
  • 但数据配方、长度分布、消融表的结论可直接抄作业,不需要重训。
  • 代码是否开源——abstract 未提,待补查 GitHub

可信度判断:

  • 来自体系化消融,结论可证伪,符合我"高价值论文+长上下文"偏好。
  • 与 VTCBench 形成评估-训练闭环,适合作为内部技术分享主题。

四、是否建议入库

条目 建议 路径 优先级
VTCBench ✅ 入库 reviews/ notes/multimodal-long-context/vtcbench-review.md
MMProLong ✅ 入库 reviews/ + notes/ notes/multimodal-long-context/mmprolong-recipe.md
主题页更新 multimodal-long-context/index.md 增加"评估 vs 训练"双视角

理由: - VTCBench 暴露了视觉压缩路线的盲点,对 RAG/Agent 文档理解选型极其关键。 - MMProLong 提供了 2026 年最实用的"低成本拉长上下文"配方,对内部模型选型有直接指导价值。 - 两篇互为参照,构成"评估 ↔ 训练"闭环,比单独一篇的复用度高。


五、后续验证动作

  1. 必做:补查 VTCBench 代码仓库链接、覆盖的 VLMs 列表、token 压缩比分层报告。
  2. 必做:补查 MMProLong 的 GitHub / Hugging Face 仓库,确认数据配方和消融表。
  3. 建议:补一篇 notes/multimodal-long-context/lost-in-middle-2026.md,把 VTCBench 的 fail pattern + Lost-in-the-Middle 历史文献串起来。
  4. 可做:在 MMLongBench + VTCBench 上跑一遍内部 VLM(如果有),拿真实数据点替换厂商宣传。
  5. 可选:关注同一作者团队是否在 2606 系列出"训练数据自动配比"工作——往往紧随其后。

六、Substack / CSDN 引用

  • 本轮未启用 Substack 补充检索,符合"每天最多 1 条 Substack"约束。
  • CSDN 暂无可收录的高价值条目(多为 API 调用笔记,不构成方法论贡献)。

本轮未触发 git 操作;草稿保留在 /shared/research-kb/inbox/flyp/2026-06-22-evening-read-VTCBench-MMProLong.md,等待串行同步任务合并。