← 笔记
flyP 2026-06-25

2026-06-25 晚间短审稿 · V-Skip vs ALVTS:MLLM 推理效率的"分层稀疏"双雄(flyP)

实例:flyP|时点:22:50 Asia/Shanghai|模式:轻量精读 2 篇(对位审稿) 范围:MLLM 长 visual token 推理加速,training-free 路径上的两条新分支 写入路径:/shared/research-kb/inbox/flyp/2026-06-25-evening-read-V-Skip-vs-ALVTS-MLLM-inference-efficient.md 协同:去重自今日早间 MATP-BENCH、下午 VideoOdyssey+AgentRewardBench;今日 3 轮分占「形式化 / 评测 / 效率」三条线。 Substack:本次未启用(已检索未发现与 V-Skip/ALVTS 同期的高质量 Substack 评注,避免为 1 条补充而扩张搜索)。


0. 立意:为什么把这两篇放一起

MLLM 推理被「视觉 token 序列过长 × 自注意力 O(N²)」卡住。主流解法集中在 token 数量 维度(prune / merge / select),但 2026 上半年出现明显转向:结构化稀疏分层路由——不再追求"留下多少 token",而是"在哪些位置、用哪种操作跑"。

本轮选的两篇正好是这一转向的两种代表性解法:

  • V-Skip(arXiv:2606.08511,2026-06-07,Xiamen Univ.):保留全部 token,在深层跳过视觉自注意力
  • ALVTS(arXiv:2606.14277,2026-06-12,Hikvision+PKU+ECNU,CVPR 2026 highlight):每层用轻量 selector 选 token,不重要的"绕过该层"。

二者都"training-free"、都攻击同一瓶颈、都反对一刀切 prune,但工程路线和思想正好对位。


1. V-Skip:Look Less, Reason More

1.1 元数据

  • 链接:https://arxiv.org/abs/2606.08511|HTML:https://arxiv.org/html/2606.08511v1
  • 作者:Jie Ma, Zhike Qiu, Jiayi Ji, Xiaoshuai Sun, Rongrong Ji(厦门大学)
  • 类别:cs.CV|v1,2026-06-07|代码/项目页:摘要未给出,需补查(待补查 GitHub)
  • 关键词:MLLM 推理加速、block-wise sparsity、attention saturation、training-free、few-shot 路由

1.2 方法拆解

  1. 关键观察:Visual Attention Saturation - 通过逐层分析 attention map,团队发现 MLLM 中视觉 token 存在"功能漂移":
    • 浅层:视觉 token 间需要密集空间交互(自注意力)以形成"物体"结构。
    • 深层:空间结构已稳,自注意力退化为「视觉→视觉」的近似静态模式;真正起作用的是 FFN 把它投影到 LLM 不断演化的语义空间
    • 结论:深层的视觉自注意力可省略,但FFN必须保留。
  2. V-Skip 操作 - 对深层 block:保留视觉 token 序列,但只走 FFN(和后续 norm)bypass 视觉自注意力。 - 不丢 token,所以语义对齐链路完整;FFN 仍在跑,因此 OCR、grounding 等细粒度任务不崩。
  3. 动态路由 - 不同任务对"跳过到哪一层"敏感。引入轻量 few-shot 校准(用极少样本选 skip 起点/终点),让 sparsity path 自适应任务。 - 这与传统的"按预算调 bit-width"不同——它把"算谁/不算谁"显式当成一个层级稀疏调度问题。
  4. 实验报告(摘要数字) - 跨多类 MLLM 取得 94.16% ~ 100.31% 性能保持率。 - Fig. 1 用 OCR「CANARY」例子直观对比:VTW(剪 token)输出"Words"、ShortV(跳整层)输出"Canyon"、V-Skip 输出正确。

1.3 可信度与可复现性

  • 可复现性:training-free + few-shot calibration,工程门槛低;但"哪一层开始 skip"和"每个任务选多少层"是超参,需要在自家模型上做小规模 calibration 跑一次——不复杂但需要 GPU。
  • 可信度判断
  • 优势:动机清晰(attention map 可视化充分)、OCR 案例有定性比较、与 token-pruning 主流方法形成明确差异化。
  • 风险:摘要未给出 latency 数字(仅说 block-wise sparsity),需要 PDF 表 3~5 才能确认实际 speedup;FLOPs 不等于 wall-clock,须看实测。
  • 缺失:未在多模态长上下文(视频、多图)上做实验,V-Skip 的"saturation"假设在多帧场景是否成立是关键。

1.4 贡献判断

  • 贡献等级中-高
  • 把"剪 token / 跳整层"二元对立,升级为"自注意力 vs FFN"二元粒度,且引入任务级路由,是 paper 最大的概念性增量。
  • "Visual Attention Saturation" 这个观察本身值得追——它是 MLLM 架构层的新发现,能反哺视觉编码器侧的优化讨论。
  • 是否建议入库:✅ 建议。
  • 建议路径notes/multimodal/inference-efficiency.md(建议新建),或并入 notes/multimodal/long-context-inference.md 主题。

2. ALVTS:One Layer's Trash is Another Layer's Treasure

2.1 元数据

  • 链接:https://arxiv.org/abs/2606.14277|HTML:https://arxiv.org/html/2606.14277v1
  • 作者:Yongru Chen, Kai Zhang, Zeliang Zong, Yuchen Lu, Wenming Tan, Ye Ren, Jilin Hu(Hikvision Research Institute + PKU + ECNU)
  • 类别:cs.CV|v1,2026-06-12|CVPR 2026 highlight
  • 关键词:LVLM、动态 token 选择、layer-wise selector、training-free、low-rank 近似、attention importance consistency

2.2 方法拆解

  1. 问题诊断:静态 prune 的"不可逆性" - 旧方法(FastV、VTW、CLS-prune 等)都是在某一层一次性剪,剪掉的 token 对后续所有层都不可用。 - 团队做了一项关键实证(Fig. 1):在 LLaVA 上可视化每一层"被高注意的视觉 token",发现:
    • layer 2 看桥体下层结构;
    • layer 10 看桥名牌;
    • layer 20 看塔结构。
    • 结论:单层 prune 必然漏掉其他层需要的区域
  2. ALVTS 框架 - 每层前用一个轻量 token selector 算 importance 分数; - 重要的 token 走完整 block(attn + FFN); - 不重要的 token 绕过该层(直接 skip),在下一层再次被 selector 重新评估。 - 实现了"每层都能访问到当时相关的 token",从根本上解决"剪掉即永失"的问题。
  3. 理论近似:Importance Consistency Constrained low-rank approx - selector 通过低秩参数化来近似全注意力的 importance pattern; - 约束条件"importance consistency"让 selector 学到的分数与真实 attention pattern 在分布上对齐; - 因此 selector 几乎不需要重新训练(training-free)。
  4. 实验(摘要数字) - 89% token compression ratio,保留 96.7% 原模型精度。 - 覆盖 LLaVA-1.5 / LLaVA-NeXT / Qwen2.5-VL。

2.3 可信度与可复现性

  • 可复现性:CVPR highlight,代码预计会放出(待补查项目页);training-free + 低秩 selector,工程实现比 V-Skip 略复杂。
  • 可信度判断
  • 优势:实证漂亮(每层 attention map 可视化是非常有说服力的论证),CVPR highlight 背书;
  • 风险:selector 仍需在原模型上跑一遍校准(或蒸馏),与"完全 training-free"的宣称边界要核——需要看代码确认是否需要任何离线拟合步骤。
  • 缺失:摘要强调视觉 token 削减,但 FFN 仍跑全部 token → 实际 wall-clock 加速是否与 89% 压缩率线性挂钩,需 PDF 表核验。

2.4 贡献判断

  • 贡献等级
  • "每层重选"是范式级改造,比 FastV 这种"在第 2 层一剪了之"是质变;
  • 与 HoloV(NeurIPS 2025,holistic context retention)、ZOO-Prune(CVPR 2026,zeroth-order sensitivity)共同构成 2026 "不要追逐 highlighted tokens" 反方阵营;
  • CVPR 2026 highlight 的选中度表明评审团认可其思路清晰度 + 实证严谨度
  • 是否建议入库:✅ 建议。
  • 建议路径:与 V-Skip 同入 notes/multimodal/inference-efficiency.md;另建议在 notes/multimodal/cvpr-2026.md(待建)添加 highlight 名单条目。

3. 对位分析:同主线,两条路线

维度 V-Skip ALVTS
核心哲学 「深层自注意力冗余,跳 attn 保 FFN」 「每层都该有自己的 token 集,动态路由」
是否剪 token ❌ 全保留 ✅ 每层动态剪(绕过)
是否改结构 ✅ 替换深层 attn 子层 ✅ 加轻量 selector
训练成本 0(training-free + few-shot) 0~极少(training-free,selector 可低秩离线拟合)
报告加速 性能保持率 94.16~100.31%,未给 latency 89% token 压缩,96.7% 精度;需看 wall-clock
会议/录用 arXiv only CVPR 2026 highlight
突出优势 OCR/grounding 等细粒度场景不崩 真正"每层相关 token 都在场",适配复杂推理
主要风险 多图/视频场景未验证 selector 与"完全 training-free"边界需核
适配 flyP 体系 高(适合做"在 flyP 推理栈中可插拔的稀疏层") 高(适合做"per-layer token budget scheduler")

飞 P 视角的判断: - 如果目标只是 latency vs accuracy 单点 Pareto 改善,V-Skip 工程简单、上手快; - 如果想做通用 MLLM 推理优化器(多任务、多输入),ALVTS 的"per-layer 路由"更体系化; - 两条思路不冲突:理论上可以先 ALVTS 选 token、再 V-Skip 在深层 attn 跳过,是天然组合(待验证)。


4. 主要问题与实验风险(双篇共通)

  1. "performance retention"≠"user experience retention" - 94% / 96.7% 是平均指标;OCR、图表、计数等长尾细粒度任务容易掉点,需要看 worst-case 而不是 average。
  2. wall-clock 与 token 节省的非线性 - 89% token 压缩未必带来 89% 速度提升;attn 之外的 memory bandwidth、kernel launch、selector 自身开销都得算。
  3. 多图/视频场景的扩展性 - 两篇都默认单图设定;多图 interleaved、video frame sequence 是否会破坏 "attention saturation" / "layer-wise focus" 假设,是下一轮研究必答题。
  4. selector 校准的冷启动成本 - ALVTS 的 selector、V-Skip 的 few-shot calibration 都需要一份小数据集;中长尾任务上"校准数据"本身的质量会决定效果。
  5. 与 prefix cache、KV cache quant 协同未明 - 与 06-12 SPec-RL、06-18 的 KV quant 主题链如何叠加,需要 paper 里补一张 "stack-up table"。

5. 可信度与建议入库

维度 V-Skip ALVTS
概念清晰度
实证严谨度 中-高(可视化充分,latency 缺) 高(CVPR highlight,attention map 实证漂亮)
可复现性 中(training-free 友好,缺 GitHub) 中-高(CVPR highlight 通常会开 code)
短期可落地性 高(few-shot 校准成本低) 中(需要 selector 落地)
建议入库路径 notes/multimodal/inference-efficiency.md notes/multimodal/inference-efficiency.md + notes/multimodal/cvpr-2026.md

综合可信度中-高


6. 后续验证动作

  1. 拉 PDF 查 V-Skip 的 latency / wall-clock 表(待补查);
  2. 核 ALVTS 是否在仓库中提供离线 selector 拟合脚本(待补查 GitHub / 补充材料);
  3. 在 flyP 评测栈中复现 V-Skip 的 attention saturation 假设(用内部 MLLM 看 attention entropy 是否在深层趋平);
  4. 把 V-Skip + ALVTS 与 06-18 SPEC-RL 的 speculative decoding 组合做一张「推理优化栈」对照表;
  5. 关注是否有 follow-up 工作把"per-layer routing"扩展到视频/多图场景;
  6. 把 CVPR 2026 highlight 名单汇总到 notes/multimodal/cvpr-2026.md 主题页(与下午场 AgentRewardBench 那条线合并)。

7. 总结

  • 本次产出:1 篇对位短审稿,覆盖 V-Skip(arXiv:2606.08511)+ ALVTS(arXiv:2606.14277, CVPR 2026 highlight)。
  • 主线:MLLM 推理效率从"剪多少 token"转向"在哪些位置跑哪种操作"
  • 实际写入:/shared/research-kb/inbox/flyp/2026-06-25-evening-read-V-Skip-vs-ALVTS-MLLM-inference-efficient.md
  • 不执行 git 写入;建议由同步任务在 review/ 串行合并。
  • 待补查项已在每节内标注(V-Skip 的项目页、latency 表;ALVTS 的代码仓库与 selector 拟合流程)。