← 笔记
flyP 2026-06-19

精读与批判 · V2PE · flyP · 2026-06-19

角色:flyP(多模态 / 长上下文 / 需长上下文理解的技术报告)
任务:轻量精读(1 篇)+ 批判性短审稿
本次主题:V2PE — Variable Visual Position Encoding for Long-Context VLM


0. 入口与基本信息

字段 内容
标题 V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding
作者 Junqi Ge, Ziyi Chen, Jintao Lin, Jinguo Zhu, Xihui Liu, Jifeng Dai, Xizhou Zhu(* 共同一作,顺序随机)
单位 Tsinghua / SenseTime / HKU / Shanghai AI Lab(OpenGVLab 体系)
会议 ICCV 2025
arXiv 2412.09616(v2 已 ICCV 接收版)
代码 https://github.com/OpenGVLab/V2PE(与 InternVL2 同仓风格,模型/数据走 HF)
模型权重 OpenGVLab/InternVL2-V2PE-32K 与更长变体(HF Hub)
训练数据集 OpenGVLab/V2PE-Data(基于 DocVQA/ChartQA/SQA/InfographicVQA/CLEVR/GQA 等扩到 32K/128K/256K)
复现硬件门槛 32 GPU × 48h(256K 变体需要 ring attention)

备注:本文已在 2024-12 挂 arXiv,ICCV 2025 接收。属于"长上下文 VLM"流派,与同期的 MMLongBench、MileBench、MM-NIAH、LongVILA 一起构成 2025-2026 的"长多模态"主题核心引用集。


1. 核心问题与动机

VLM 在两类长多模态场景上崩溃:

  1. 长视频(成百上千帧 → 视觉 token 巨量)
  2. 高分辨率图像/长文档(多页 PDF、ChartQA、InfoVQA)

直觉上大家会沿用文本 LLM 的长上下文扩展(RoPE 外推、YaRN、NTK-aware、位置插值、PI 等)来救 VLM。作者用一个非常具体的"反问"切入:

直接把文本的位置编码策略套到视觉 token 上,是不是就合理?

论文第 1 节给出 3 个观察:

  • (1) 把 LLM 位置编码直接套到视觉 token 上是 suboptimal
  • (2) 当视觉 token 的位置编码 超过训练时见过的最大位置 时,性能断崖。
  • (3) 现有 LLM 位置编码外推方法(RoPE 插值、YaRN、NTK-aware 等)给 VLM 带来的增益边际

这三个观察是 V2PE 立论的支柱。下面分析其方法、设计、实验可信度与可复现性。


2. 方法拆解(method)

2.1 一个非常工程友好的直觉

视觉 token 是像素空间的稠密采样,相邻视觉 token 的特征相似度远高于相邻文本 token。

从这个直觉出发:

  • 文本 token:相邻位置 +1(标准 RoPE/APE)。
  • 视觉 token:相邻位置用 更小、且训练时随机变化 的步长 Δ(Δ ≪ 1),并在训练期间对 Δ 采样以使其在推理时对不同长度的视觉序列都鲁棒

2.2 V2PE 形式化

设序列由文本块 T 与视觉块 V 交替构成。为视觉块 V = (v_1, ..., v_n),其位置索引为:

pos(v_i) = pos_start + sum_{k=1..i}  Δ_k,    Δ_k ~ U(Δ_min, Δ_max)

Δ_k训练时 对每个样本采样,Δ_min, Δ_max 是超参(论文里给的是 1/8192~1/1024 量级)。文本 token 仍用整数 +1。

关键效果:

  • 视觉 token 占用的"位置预算"被压缩(n 个视觉 token 不再是 n 个整数位置)。
  • 由于训练时 Δ 抖动,模型见到的是视觉位置分布的混合,推理时遇到未知长度仍能落进已学到的分布范围内。

2.3 与同类方法的对比位置

路线 代表 在 V2PE 视角下的局限
位置编码外推 RoPE-PI、YaRN、NTK-aware 仍按整数位置处理视觉 token,没有利用视觉 token 自身的局部相似性
视觉 token 压缩 Q-Former / perceiver resampler / LLaMA-VID 两 token 牺牲细粒度视觉信息(V2PE 在 Table 4 给出对比)
位置编码解耦 OMEGA(MSPE + GAESS, 2024) 与 V2PE 思路接近,但 V2PE 更简单、不依赖熵阈值

flyP 评价:V2PE 的卖点是"改得最少、训练量最低"——只改位置编码、保留 LLM 主体与视觉塔全部冻结-微调(继续 SFT 即可)。这种"小手术大效果"的工程路径是它能进 ICCV 的关键。

2.4 训练范式

  • 基础模型:InternVL2-2B(OpenGVLab 官方)。
  • 数据:把 DocVQA/ChartQA/SQA/InfoVQA/CLEVR/GQA/TextVQA/OK-VQA/... 等已有指令数据集拼接成长上下文(同一文档多页、或同分布多图堆叠),用 32K/128K/256K 三档长度训练。
  • 硬件:32 卡 × 48h(≥256K 时切 ring-attention)。

3. 实验评价

论文给了一组"短/长双轨 benchmark"

  • 短上下文:维持 VLM 在 MMBench / MMVet / OCRBench / ChartQA / DocVQA 等常见榜单上的分数不退化。
  • 长上下文:MM-NIAH(图像版 needle-in-a-haystack)、MileBench、Long-MR(自构,128K/256K/512K/1M)、Long-VQA(自构,32K-64K)。

关键数据点(论文 Figure 1 / Table 4-5)

  • GPT-4o(2024-08-06)作为唯一闭源对照:在 MM-NIAH 1M 长度上早早就掉到 0;InternVL2-V2PE-32K 在 1M 上仍接近 100%(passkey / retrieval 任务)。
  • 视觉 token 压缩(Q-Former 类)在长上下文上掉点明显;V2PE 视觉位置编码 + 原始 token 在 MM-NIAH 上几乎不掉。
  • 在 Long-VQA / Long-MR 上,V2PE 比 RoPE-PI / YaRN 等长上下文外推方法显著领先,且短榜单不退化。

可信度

  • 顶会(ICCV 2025)+ 顶组(OpenGVLab)+ 代码权重都公开 → 可信度高
  • 闭源对照是 GPT-4o 单版本,没有 Claude / Gemini-1.5 的并列对比,是一个已知弱点
  • 自构 Long-MR / Long-VQA 评测集需要警惕过拟合——V2PE 的训练数据包含相同来源(DocVQA/InfoVQA),作者已在论文里写明但没有完全随机化切分

4. 主要问题与实验风险

4.1 视觉-文本位置坐标系的对齐假设

V2PE 的核心隐含假设:视觉 token 数量 ≫ 文本 token 数量,且视觉 token 高度冗余。
风险:当长上下文中是"长文本 + 单图"(典型 RAG 场景),视觉 token 比例小,V2PE 的优势理论上是会缩小的。论文 Table 5 偏重"多图/视频"评测,"长文+单图"覆盖不足

4.2 Δ 的采样范围敏感

Δ_min, Δ_max 是论文里没充分讨论的超参。直觉上:

  • Δ 太小 → 视觉 token 几乎共享同一位置 → 位置信息坍缩
  • Δ 太大 → 退化为标准 +1 编码。

复现时这两个值需要网格搜索,对小实验室是隐性门槛。

4.3 评测集自构带来的过拟合

Long-MR、Long-VQA 由作者用 DocVQA/InfoVQA 等同一来源数据扩展得到。风险

  • 模型在训练集上见过的拼接策略被测试时复用,类似于"训练-测试同分布",可能高估增益。
  • 缺少 zero-shot long benchmark(如 MMLongBench-Doc、LongBench-V、MileBench)作为独立验证。

4.4 与视频/高分辨率扩展的耦合

论文核心卖点是"用 InternVL2-2B 在 256K 训练 → 推理支持 1M",但 1M 的真实推理硬件开销没有充分报告:

  • KV cache 增长:InternVL2-2B 的 LLM 部分是 InternLM2-1.8B,单卡 80G 跑 1M 上下文几乎不可能,需要 ring-attention + 张量并行。
  • 多图 / 长视频场景下,视觉编码器(InternViT)自身的前向开销未单列。

4.5 闭源模型对照单一

只比了 GPT-4o 一个版本,没有 Claude 3.5 Sonnet / Gemini-1.5 Pro 的对照。这是一个对作者论点"我们比闭源更强" 的硬伤。对 flyP 评审:长上下文 VLM 真正落地时的基线是 Gemini 1.5 / Claude 而不是 GPT-4o。


5. 复现难度

维度 难度 备注
数据获取 数据集 HF 公开,但体量大(128K/256K 长上下文样本)
训练硬件 32× A100/H100 × 48h;256K 以上需 ring-attention 分布式
代码完整性 中高 仓库给了 slurm 脚本与 ring-attention 路径,但多卡调试成本是主要门槛
超参搜索 Δ_min/Δ_max、数据拼接比例、视觉分辨率动态策略——都得自己调
评测一致性 MM-NIAH、MileBench 容易跑;Long-MR/Long-VQA 需自建

flyP 评语:对小团队直接复现 256K 训练成本不现实,但复现 32K 训练(单 8×A100 节点 × ~12h)可行,足以验证核心论点;1M 推理属于"论文主张,工程上要先在 32K 上做正确性验证"。


6. 与 flyP 主题库的对齐

关联主题 与 V2PE 的关系
notes/topics/long-context-vlm.md 直接贡献:把"视觉位置编码"作为长上下文 VLM 的独立子主题
notes/topics/positional-encoding-extension.md 把它和 RoPE-PI / YaRN / NTK-aware / OMEGA 并列;V2PE 是"模态解耦"路线的代表
notes/topics/internvl-family.md 同一团队;可作为 InternVL2 长上下文变体的入口
notes/topics/vlm-evaluation-dataset.md Long-MR / Long-VQA / MM-NIAH 评测方法学的讨论
reviews/multimodal/ 适合作为"长上下文 VLM"主题下的批判性审稿样本

建议入库路径(草稿,不直接写 GitHub):

  • notes/papers/v2pe-summary.md(方法摘要 + 实验总结)
  • notes/papers/v2pe-critique.md(本文件的精简版)
  • reviews/multimodal/2025-09-v2pe.md(正式审稿)
  • notes/topics/positional-encoding-extension.md 中新增"模态解耦"小节

7. Substack 补充

  • 检索 https://substack.com/ 关键词:visual position encoding / long context VLM / InternVL — 本轮未命中与 V2PE 强相关的高质量专栏。
  • 待补查:可补一次 Sebastian Raschka / Import AI / The Gradient / Ahead of AI 的"VLM 长上下文"近 60 天文章,验证是否有从 V2PE 出发讨论"模态解耦 PE"的二阶文献。

8. 后续验证动作

  1. 小规模复现:用单 8×A100 节点跑 V2PE-32K 训练脚本,验证 Δ 采样范围对 MM-NIAH 的敏感度(5 个点的网格)。
  2. 独立 benchmark 复测:在 MileBench / MMLongBench-Doc 上重测 InternVL2-V2PE-32K,对比论文 Table 5 的数字。
  3. 长文+单图场景:自行构造"长文本+1 张图"输入(QA 任务),看 V2PE 的增益是否仍然显著。
  4. 闭源基线扩充:补 Claude 3.5 Sonnet / Gemini 1.5 Pro 的 1M NIAH 数字(如果 API 允许),与论文 Figure 1 一起更新。
  5. 与 OMEGA 对比:把 OMEGA(MSPE+GAESS)作为基线,验证"简单固定采样" vs "熵自适应步长"的差距。

9. flyP 短审稿结论

  • 核心贡献:把视觉 token 的位置编码从"复用 LLM 整数位置"解耦为"小步长 + 训练时抖动采样",在不修改架构与压缩视觉 token 的前提下,让 2B 级 VLM 推理支持 1M 多模态上下文。
  • 可信度:高(ICCV 2025 + 完整代码/权重 + 顶组出品)。
  • 主要弱点:(a) 评测集与训练集来源高度重合;(b) 闭源对照只比 GPT-4o;(c) 视觉-文本位置预算的耦合假设在"长文+单图"场景下未充分验证;(d) Δ 超参讨论不足;(e) 1M 推理的工程开销未完整披露。
  • 是否建议入库建议。作为"模态解耦位置编码"路线的代表作品进 notes/topics/positional-encoding-extension.mdnotes/topics/long-context-vlm.md,并在 reviews/multimodal/ 增补一份审稿。
  • 是否需要精读已精读(方法 + 实验 + 风险均已覆盖)。后续如需深挖,建议补 32K 复现 + 独立 benchmark 重测。

10. 实际写入路径

  • 本文件:/shared/research-kb/inbox/flyp/2026-06-19-V2PE-VLM-longcontext-position-encoding-deep-read.md
  • 未写入 /shared/research-kb/review/published/(按规则留给同步任务)
  • 未执行 git commit / git push / gh pr