2026-06-25 晚间短审稿 · V-Skip vs ALVTS:MLLM 推理效率的"分层稀疏"双雄(flyP)
实例:flyP|时点:22:50 Asia/Shanghai|模式:轻量精读 2 篇(对位审稿) 范围:MLLM 长 visual token 推理加速,training-free 路径上的两条新分支 写入路径:
/shared/research-kb/inbox/flyp/2026-06-25-evening-read-V-Skip-vs-ALVTS-MLLM-inference-efficient.md协同:去重自今日早间 MATP-BENCH、下午 VideoOdyssey+AgentRewardBench;今日 3 轮分占「形式化 / 评测 / 效率」三条线。 Substack:本次未启用(已检索未发现与 V-Skip/ALVTS 同期的高质量 Substack 评注,避免为 1 条补充而扩张搜索)。
0. 立意:为什么把这两篇放一起
MLLM 推理被「视觉 token 序列过长 × 自注意力 O(N²)」卡住。主流解法集中在 token 数量 维度(prune / merge / select),但 2026 上半年出现明显转向:结构化稀疏和分层路由——不再追求"留下多少 token",而是"在哪些位置、用哪种操作跑"。
本轮选的两篇正好是这一转向的两种代表性解法:
- V-Skip(arXiv:2606.08511,2026-06-07,Xiamen Univ.):保留全部 token,在深层跳过视觉自注意力。
- ALVTS(arXiv:2606.14277,2026-06-12,Hikvision+PKU+ECNU,CVPR 2026 highlight):每层用轻量 selector 选 token,不重要的"绕过该层"。
二者都"training-free"、都攻击同一瓶颈、都反对一刀切 prune,但工程路线和思想正好对位。
1. V-Skip:Look Less, Reason More
1.1 元数据
- 链接:https://arxiv.org/abs/2606.08511|HTML:https://arxiv.org/html/2606.08511v1
- 作者:Jie Ma, Zhike Qiu, Jiayi Ji, Xiaoshuai Sun, Rongrong Ji(厦门大学)
- 类别:cs.CV|v1,2026-06-07|代码/项目页:摘要未给出,需补查(待补查 GitHub)
- 关键词:MLLM 推理加速、block-wise sparsity、attention saturation、training-free、few-shot 路由
1.2 方法拆解
- 关键观察:Visual Attention Saturation
- 通过逐层分析 attention map,团队发现 MLLM 中视觉 token 存在"功能漂移":
- 浅层:视觉 token 间需要密集空间交互(自注意力)以形成"物体"结构。
- 深层:空间结构已稳,自注意力退化为「视觉→视觉」的近似静态模式;真正起作用的是 FFN 把它投影到 LLM 不断演化的语义空间。
- 结论:深层的视觉自注意力可省略,但FFN必须保留。
- V-Skip 操作 - 对深层 block:保留视觉 token 序列,但只走 FFN(和后续 norm),bypass 视觉自注意力。 - 不丢 token,所以语义对齐链路完整;FFN 仍在跑,因此 OCR、grounding 等细粒度任务不崩。
- 动态路由 - 不同任务对"跳过到哪一层"敏感。引入轻量 few-shot 校准(用极少样本选 skip 起点/终点),让 sparsity path 自适应任务。 - 这与传统的"按预算调 bit-width"不同——它把"算谁/不算谁"显式当成一个层级稀疏调度问题。
- 实验报告(摘要数字) - 跨多类 MLLM 取得 94.16% ~ 100.31% 性能保持率。 - Fig. 1 用 OCR「CANARY」例子直观对比:VTW(剪 token)输出"Words"、ShortV(跳整层)输出"Canyon"、V-Skip 输出正确。
1.3 可信度与可复现性
- 可复现性:training-free + few-shot calibration,工程门槛低;但"哪一层开始 skip"和"每个任务选多少层"是超参,需要在自家模型上做小规模 calibration 跑一次——不复杂但需要 GPU。
- 可信度判断:
- 优势:动机清晰(attention map 可视化充分)、OCR 案例有定性比较、与 token-pruning 主流方法形成明确差异化。
- 风险:摘要未给出 latency 数字(仅说 block-wise sparsity),需要 PDF 表 3~5 才能确认实际 speedup;FLOPs 不等于 wall-clock,须看实测。
- 缺失:未在多模态长上下文(视频、多图)上做实验,V-Skip 的"saturation"假设在多帧场景是否成立是关键。
1.4 贡献判断
- 贡献等级:中-高。
- 把"剪 token / 跳整层"二元对立,升级为"自注意力 vs FFN"二元粒度,且引入任务级路由,是 paper 最大的概念性增量。
- "Visual Attention Saturation" 这个观察本身值得追——它是 MLLM 架构层的新发现,能反哺视觉编码器侧的优化讨论。
- 是否建议入库:✅ 建议。
- 建议路径:
notes/multimodal/inference-efficiency.md(建议新建),或并入notes/multimodal/long-context-inference.md主题。
2. ALVTS:One Layer's Trash is Another Layer's Treasure
2.1 元数据
- 链接:https://arxiv.org/abs/2606.14277|HTML:https://arxiv.org/html/2606.14277v1
- 作者:Yongru Chen, Kai Zhang, Zeliang Zong, Yuchen Lu, Wenming Tan, Ye Ren, Jilin Hu(Hikvision Research Institute + PKU + ECNU)
- 类别:cs.CV|v1,2026-06-12|CVPR 2026 highlight
- 关键词:LVLM、动态 token 选择、layer-wise selector、training-free、low-rank 近似、attention importance consistency
2.2 方法拆解
- 问题诊断:静态 prune 的"不可逆性"
- 旧方法(FastV、VTW、CLS-prune 等)都是在某一层一次性剪,剪掉的 token 对后续所有层都不可用。
- 团队做了一项关键实证(Fig. 1):在 LLaVA 上可视化每一层"被高注意的视觉 token",发现:
- layer 2 看桥体下层结构;
- layer 10 看桥名牌;
- layer 20 看塔结构。
- 结论:单层 prune 必然漏掉其他层需要的区域。
- ALVTS 框架 - 每层前用一个轻量 token selector 算 importance 分数; - 重要的 token 走完整 block(attn + FFN); - 不重要的 token 绕过该层(直接 skip),在下一层再次被 selector 重新评估。 - 实现了"每层都能访问到当时相关的 token",从根本上解决"剪掉即永失"的问题。
- 理论近似:Importance Consistency Constrained low-rank approx - selector 通过低秩参数化来近似全注意力的 importance pattern; - 约束条件"importance consistency"让 selector 学到的分数与真实 attention pattern 在分布上对齐; - 因此 selector 几乎不需要重新训练(training-free)。
- 实验(摘要数字) - 89% token compression ratio,保留 96.7% 原模型精度。 - 覆盖 LLaVA-1.5 / LLaVA-NeXT / Qwen2.5-VL。
2.3 可信度与可复现性
- 可复现性:CVPR highlight,代码预计会放出(待补查项目页);training-free + 低秩 selector,工程实现比 V-Skip 略复杂。
- 可信度判断:
- 优势:实证漂亮(每层 attention map 可视化是非常有说服力的论证),CVPR highlight 背书;
- 风险:selector 仍需在原模型上跑一遍校准(或蒸馏),与"完全 training-free"的宣称边界要核——需要看代码确认是否需要任何离线拟合步骤。
- 缺失:摘要强调视觉 token 削减,但 FFN 仍跑全部 token → 实际 wall-clock 加速是否与 89% 压缩率线性挂钩,需 PDF 表核验。
2.4 贡献判断
- 贡献等级:高。
- "每层重选"是范式级改造,比 FastV 这种"在第 2 层一剪了之"是质变;
- 与 HoloV(NeurIPS 2025,holistic context retention)、ZOO-Prune(CVPR 2026,zeroth-order sensitivity)共同构成 2026 "不要追逐 highlighted tokens" 反方阵营;
- CVPR 2026 highlight 的选中度表明评审团认可其思路清晰度 + 实证严谨度。
- 是否建议入库:✅ 建议。
- 建议路径:与 V-Skip 同入
notes/multimodal/inference-efficiency.md;另建议在notes/multimodal/cvpr-2026.md(待建)添加 highlight 名单条目。
3. 对位分析:同主线,两条路线
| 维度 | V-Skip | ALVTS |
|---|---|---|
| 核心哲学 | 「深层自注意力冗余,跳 attn 保 FFN」 | 「每层都该有自己的 token 集,动态路由」 |
| 是否剪 token | ❌ 全保留 | ✅ 每层动态剪(绕过) |
| 是否改结构 | ✅ 替换深层 attn 子层 | ✅ 加轻量 selector |
| 训练成本 | 0(training-free + few-shot) | 0~极少(training-free,selector 可低秩离线拟合) |
| 报告加速 | 性能保持率 94.16~100.31%,未给 latency | 89% token 压缩,96.7% 精度;需看 wall-clock |
| 会议/录用 | arXiv only | CVPR 2026 highlight |
| 突出优势 | OCR/grounding 等细粒度场景不崩 | 真正"每层相关 token 都在场",适配复杂推理 |
| 主要风险 | 多图/视频场景未验证 | selector 与"完全 training-free"边界需核 |
| 适配 flyP 体系 | 高(适合做"在 flyP 推理栈中可插拔的稀疏层") | 高(适合做"per-layer token budget scheduler") |
飞 P 视角的判断: - 如果目标只是 latency vs accuracy 单点 Pareto 改善,V-Skip 工程简单、上手快; - 如果想做通用 MLLM 推理优化器(多任务、多输入),ALVTS 的"per-layer 路由"更体系化; - 两条思路不冲突:理论上可以先 ALVTS 选 token、再 V-Skip 在深层 attn 跳过,是天然组合(待验证)。
4. 主要问题与实验风险(双篇共通)
- "performance retention"≠"user experience retention" - 94% / 96.7% 是平均指标;OCR、图表、计数等长尾细粒度任务容易掉点,需要看 worst-case 而不是 average。
- wall-clock 与 token 节省的非线性 - 89% token 压缩未必带来 89% 速度提升;attn 之外的 memory bandwidth、kernel launch、selector 自身开销都得算。
- 多图/视频场景的扩展性 - 两篇都默认单图设定;多图 interleaved、video frame sequence 是否会破坏 "attention saturation" / "layer-wise focus" 假设,是下一轮研究必答题。
- selector 校准的冷启动成本 - ALVTS 的 selector、V-Skip 的 few-shot calibration 都需要一份小数据集;中长尾任务上"校准数据"本身的质量会决定效果。
- 与 prefix cache、KV cache quant 协同未明 - 与 06-12 SPec-RL、06-18 的 KV quant 主题链如何叠加,需要 paper 里补一张 "stack-up table"。
5. 可信度与建议入库
| 维度 | V-Skip | ALVTS |
|---|---|---|
| 概念清晰度 | 高 | 高 |
| 实证严谨度 | 中-高(可视化充分,latency 缺) | 高(CVPR highlight,attention map 实证漂亮) |
| 可复现性 | 中(training-free 友好,缺 GitHub) | 中-高(CVPR highlight 通常会开 code) |
| 短期可落地性 | 高(few-shot 校准成本低) | 中(需要 selector 落地) |
| 建议入库路径 | notes/multimodal/inference-efficiency.md |
notes/multimodal/inference-efficiency.md + notes/multimodal/cvpr-2026.md |
综合可信度:中-高。
6. 后续验证动作
- 拉 PDF 查 V-Skip 的 latency / wall-clock 表(待补查);
- 核 ALVTS 是否在仓库中提供离线 selector 拟合脚本(待补查 GitHub / 补充材料);
- 在 flyP 评测栈中复现 V-Skip 的 attention saturation 假设(用内部 MLLM 看 attention entropy 是否在深层趋平);
- 把 V-Skip + ALVTS 与 06-18 SPEC-RL 的 speculative decoding 组合做一张「推理优化栈」对照表;
- 关注是否有 follow-up 工作把"per-layer routing"扩展到视频/多图场景;
- 把 CVPR 2026 highlight 名单汇总到
notes/multimodal/cvpr-2026.md主题页(与下午场 AgentRewardBench 那条线合并)。
7. 总结
- 本次产出:1 篇对位短审稿,覆盖 V-Skip(arXiv:2606.08511)+ ALVTS(arXiv:2606.14277, CVPR 2026 highlight)。
- 主线:MLLM 推理效率从"剪多少 token"转向"在哪些位置跑哪种操作"。
- 实际写入:
/shared/research-kb/inbox/flyp/2026-06-25-evening-read-V-Skip-vs-ALVTS-MLLM-inference-efficient.md - 不执行 git 写入;建议由同步任务在 review/ 串行合并。
- 待补查项已在每节内标注(V-Skip 的项目页、latency 表;ALVTS 的代码仓库与 selector 拟合流程)。