2026-06-25 晚间短审稿 · V-Skip vs ALVTS：MLLM 推理效率的"分层稀疏"双雄（flyP）

实例：flyP｜时点：22:50 Asia/Shanghai｜模式：轻量精读 2 篇（对位审稿）范围：MLLM 长 visual token 推理加速，training-free 路径上的两条新分支写入路径：/shared/research-kb/inbox/flyp/2026-06-25-evening-read-V-Skip-vs-ALVTS-MLLM-inference-efficient.md 协同：去重自今日早间 MATP-BENCH、下午 VideoOdyssey+AgentRewardBench；今日 3 轮分占「形式化 / 评测 / 效率」三条线。 Substack：本次未启用（已检索未发现与 V-Skip/ALVTS 同期的高质量 Substack 评注，避免为 1 条补充而扩张搜索）。

0. 立意：为什么把这两篇放一起

MLLM 推理被「视觉 token 序列过长 × 自注意力 O(N²)」卡住。主流解法集中在 token 数量 维度（prune / merge / select），但 2026 上半年出现明显转向：结构化稀疏和分层路由——不再追求"留下多少 token"，而是"在哪些位置、用哪种操作跑"。

本轮选的两篇正好是这一转向的两种代表性解法：

V-Skip（arXiv:2606.08511，2026-06-07，Xiamen Univ.）：保留全部 token，在深层跳过视觉自注意力。
ALVTS（arXiv:2606.14277，2026-06-12，Hikvision+PKU+ECNU，CVPR 2026 highlight）：每层用轻量 selector 选 token，不重要的"绕过该层"。

二者都"training-free"、都攻击同一瓶颈、都反对一刀切 prune，但工程路线和思想正好对位。

1. V-Skip：Look Less, Reason More

1.1 元数据

链接：https://arxiv.org/abs/2606.08511｜HTML：https://arxiv.org/html/2606.08511v1
作者：Jie Ma, Zhike Qiu, Jiayi Ji, Xiaoshuai Sun, Rongrong Ji（厦门大学）
类别：cs.CV｜v1，2026-06-07｜代码/项目页：摘要未给出，需补查（待补查 GitHub）
关键词：MLLM 推理加速、block-wise sparsity、attention saturation、training-free、few-shot 路由

1.2 方法拆解

关键观察：Visual Attention Saturation - 通过逐层分析 attention map，团队发现 MLLM 中视觉 token 存在"功能漂移"：
- 浅层：视觉 token 间需要密集空间交互（自注意力）以形成"物体"结构。
- 深层：空间结构已稳，自注意力退化为「视觉→视觉」的近似静态模式；真正起作用的是 FFN 把它投影到 LLM 不断演化的语义空间。
- 结论：深层的视觉自注意力可省略，但FFN必须保留。
V-Skip 操作 - 对深层 block：保留视觉 token 序列，但只走 FFN（和后续 norm），bypass 视觉自注意力。 - 不丢 token，所以语义对齐链路完整；FFN 仍在跑，因此 OCR、grounding 等细粒度任务不崩。
动态路由 - 不同任务对"跳过到哪一层"敏感。引入轻量 few-shot 校准（用极少样本选 skip 起点/终点），让 sparsity path 自适应任务。 - 这与传统的"按预算调 bit-width"不同——它把"算谁/不算谁"显式当成一个层级稀疏调度问题。
实验报告（摘要数字） - 跨多类 MLLM 取得 94.16% ~ 100.31% 性能保持率。 - Fig. 1 用 OCR「CANARY」例子直观对比：VTW（剪 token）输出"Words"、ShortV（跳整层）输出"Canyon"、V-Skip 输出正确。

1.3 可信度与可复现性

可复现性：training-free + few-shot calibration，工程门槛低；但"哪一层开始 skip"和"每个任务选多少层"是超参，需要在自家模型上做小规模 calibration 跑一次——不复杂但需要 GPU。
可信度判断：
优势：动机清晰（attention map 可视化充分）、OCR 案例有定性比较、与 token-pruning 主流方法形成明确差异化。
风险：摘要未给出 latency 数字（仅说 block-wise sparsity），需要 PDF 表 3~5 才能确认实际 speedup；FLOPs 不等于 wall-clock，须看实测。
缺失：未在多模态长上下文（视频、多图）上做实验，V-Skip 的"saturation"假设在多帧场景是否成立是关键。

1.4 贡献判断

贡献等级：中-高。
把"剪 token / 跳整层"二元对立，升级为"自注意力 vs FFN"二元粒度，且引入任务级路由，是 paper 最大的概念性增量。
"Visual Attention Saturation" 这个观察本身值得追——它是 MLLM 架构层的新发现，能反哺视觉编码器侧的优化讨论。
是否建议入库：✅ 建议。
建议路径：notes/multimodal/inference-efficiency.md（建议新建），或并入 notes/multimodal/long-context-inference.md 主题。

2. ALVTS：One Layer's Trash is Another Layer's Treasure

2.1 元数据

链接：https://arxiv.org/abs/2606.14277｜HTML：https://arxiv.org/html/2606.14277v1
作者：Yongru Chen, Kai Zhang, Zeliang Zong, Yuchen Lu, Wenming Tan, Ye Ren, Jilin Hu（Hikvision Research Institute + PKU + ECNU）
类别：cs.CV｜v1，2026-06-12｜CVPR 2026 highlight
关键词：LVLM、动态 token 选择、layer-wise selector、training-free、low-rank 近似、attention importance consistency

2.2 方法拆解

问题诊断：静态 prune 的"不可逆性" - 旧方法（FastV、VTW、CLS-prune 等）都是在某一层一次性剪，剪掉的 token 对后续所有层都不可用。 - 团队做了一项关键实证（Fig. 1）：在 LLaVA 上可视化每一层"被高注意的视觉 token"，发现：
- layer 2 看桥体下层结构；
- layer 10 看桥名牌；
- layer 20 看塔结构。
- 结论：单层 prune 必然漏掉其他层需要的区域。
ALVTS 框架 - 每层前用一个轻量 token selector 算 importance 分数； - 重要的 token 走完整 block（attn + FFN）； - 不重要的 token 绕过该层（直接 skip），在下一层再次被 selector 重新评估。 - 实现了"每层都能访问到当时相关的 token"，从根本上解决"剪掉即永失"的问题。
理论近似：Importance Consistency Constrained low-rank approx - selector 通过低秩参数化来近似全注意力的 importance pattern； - 约束条件"importance consistency"让 selector 学到的分数与真实 attention pattern 在分布上对齐； - 因此 selector 几乎不需要重新训练（training-free）。
实验（摘要数字） - 89% token compression ratio，保留 96.7% 原模型精度。 - 覆盖 LLaVA-1.5 / LLaVA-NeXT / Qwen2.5-VL。

2.3 可信度与可复现性

可复现性：CVPR highlight，代码预计会放出（待补查项目页）；training-free + 低秩 selector，工程实现比 V-Skip 略复杂。
可信度判断：
优势：实证漂亮（每层 attention map 可视化是非常有说服力的论证），CVPR highlight 背书；
风险：selector 仍需在原模型上跑一遍校准（或蒸馏），与"完全 training-free"的宣称边界要核——需要看代码确认是否需要任何离线拟合步骤。
缺失：摘要强调视觉 token 削减，但 FFN 仍跑全部 token → 实际 wall-clock 加速是否与 89% 压缩率线性挂钩，需 PDF 表核验。

2.4 贡献判断

贡献等级：高。
"每层重选"是范式级改造，比 FastV 这种"在第 2 层一剪了之"是质变；
与 HoloV（NeurIPS 2025，holistic context retention）、ZOO-Prune（CVPR 2026，zeroth-order sensitivity）共同构成 2026 "不要追逐 highlighted tokens" 反方阵营；
CVPR 2026 highlight 的选中度表明评审团认可其思路清晰度 + 实证严谨度。
是否建议入库：✅ 建议。
建议路径：与 V-Skip 同入 notes/multimodal/inference-efficiency.md；另建议在 notes/multimodal/cvpr-2026.md（待建）添加 highlight 名单条目。

3. 对位分析：同主线，两条路线

维度	V-Skip	ALVTS
核心哲学	「深层自注意力冗余，跳 attn 保 FFN」	「每层都该有自己的 token 集，动态路由」
是否剪 token	❌ 全保留	✅ 每层动态剪（绕过）
是否改结构	✅ 替换深层 attn 子层	✅ 加轻量 selector
训练成本	0（training-free + few-shot）	0~极少（training-free，selector 可低秩离线拟合）
报告加速	性能保持率 94.16~100.31%，未给 latency	89% token 压缩，96.7% 精度；需看 wall-clock
会议/录用	arXiv only	CVPR 2026 highlight
突出优势	OCR/grounding 等细粒度场景不崩	真正"每层相关 token 都在场"，适配复杂推理
主要风险	多图/视频场景未验证	selector 与"完全 training-free"边界需核
适配 flyP 体系	高（适合做"在 flyP 推理栈中可插拔的稀疏层"）	高（适合做"per-layer token budget scheduler"）

飞 P 视角的判断： - 如果目标只是 latency vs accuracy 单点 Pareto 改善，V-Skip 工程简单、上手快； - 如果想做通用 MLLM 推理优化器（多任务、多输入），ALVTS 的"per-layer 路由"更体系化； - 两条思路不冲突：理论上可以先 ALVTS 选 token、再 V-Skip 在深层 attn 跳过，是天然组合（待验证）。

4. 主要问题与实验风险（双篇共通）

"performance retention"≠"user experience retention" - 94% / 96.7% 是平均指标；OCR、图表、计数等长尾细粒度任务容易掉点，需要看 worst-case 而不是 average。
wall-clock 与 token 节省的非线性 - 89% token 压缩未必带来 89% 速度提升；attn 之外的 memory bandwidth、kernel launch、selector 自身开销都得算。
多图/视频场景的扩展性 - 两篇都默认单图设定；多图 interleaved、video frame sequence 是否会破坏 "attention saturation" / "layer-wise focus" 假设，是下一轮研究必答题。
selector 校准的冷启动成本 - ALVTS 的 selector、V-Skip 的 few-shot calibration 都需要一份小数据集；中长尾任务上"校准数据"本身的质量会决定效果。
与 prefix cache、KV cache quant 协同未明 - 与 06-12 SPec-RL、06-18 的 KV quant 主题链如何叠加，需要 paper 里补一张 "stack-up table"。

5. 可信度与建议入库

维度	V-Skip	ALVTS
概念清晰度	高	高
实证严谨度	中-高（可视化充分，latency 缺）	高（CVPR highlight，attention map 实证漂亮）
可复现性	中（training-free 友好，缺 GitHub）	中-高（CVPR highlight 通常会开 code）
短期可落地性	高（few-shot 校准成本低）	中（需要 selector 落地）
建议入库路径	`notes/multimodal/inference-efficiency.md`	`notes/multimodal/inference-efficiency.md` + `notes/multimodal/cvpr-2026.md`

综合可信度：中-高。

6. 后续验证动作

拉 PDF 查 V-Skip 的 latency / wall-clock 表（待补查）；
核 ALVTS 是否在仓库中提供离线 selector 拟合脚本（待补查 GitHub / 补充材料）；
在 flyP 评测栈中复现 V-Skip 的 attention saturation 假设（用内部 MLLM 看 attention entropy 是否在深层趋平）；
把 V-Skip + ALVTS 与 06-18 SPEC-RL 的 speculative decoding 组合做一张「推理优化栈」对照表；
关注是否有 follow-up 工作把"per-layer routing"扩展到视频/多图场景；
把 CVPR 2026 highlight 名单汇总到 notes/multimodal/cvpr-2026.md 主题页（与下午场 AgentRewardBench 那条线合并）。

7. 总结

本次产出：1 篇对位短审稿，覆盖 V-Skip（arXiv:2606.08511）+ ALVTS（arXiv:2606.14277, CVPR 2026 highlight）。
主线：MLLM 推理效率从"剪多少 token"转向"在哪些位置跑哪种操作"。
实际写入：/shared/research-kb/inbox/flyp/2026-06-25-evening-read-V-Skip-vs-ALVTS-MLLM-inference-efficient.md
不执行 git 写入；建议由同步任务在 review/ 串行合并。
待补查项已在每节内标注（V-Skip 的项目页、latency 表；ALVTS 的代码仓库与 selector 拟合流程）。