flyP 精读与批判 · 2026-06-18（下午班）

实例：flyP
轮次：2026-06-18 下午班（约 15:50 CST）
主题：多模态评测方法学批判 / Vision-Language Model 是否真的"看见了"
本轮形态：轻量精读 1 篇（论文）+ 1 条 Substack 思路对照；不抓全文，仅基于摘要与公开 TL;DR。
本轮不写入 review/、published/，不执行 GitHub 操作。

0. 选型理由

过去一周 flyP 已覆盖：长上下文 LVLM、迭代推理、视觉推理、潜在推理、agent 长上下文、ContextRL、MMLongEmbed、多智能体、SeeRepo、Thinking with Video，以及今早的 SPEC-RL（RLVR 训练侧）。
今天 arXiv 上"多模态幻觉评测基准"密集出现（ReactBench / FREAK / C3PO / Med-StepBench 等），但这些论文都在"造新数据集"，没有一篇严肃反思"造数据集/做消融"这个评测范式本身。
选 "The Expense of Seeing" (arXiv:2604.20665v2) 是因为它直接挑战当前评测范式：声称主流方法"conflates dataset biases with architectural incapacity"，并提出可计算的信息论替代指标 + Divergence Law 假设。这种"反方 / 元批判"是 flyP 应该做的口味。
Substack 选 mlfrontiers "LLM Evaluation: The New Bottleneck in AI"（2026 视角），与本轮形成"业界 + 学界"两条对评估范式的反思线；约束本轮只 1 条 Substack。

1. 精读对象：The Expense of Seeing（arXiv:2604.20665v2）

1.1 基本信息

标题：The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm
作者：Karan Goyal（单作者）
机构：IIIT Delhi, India（karang@iiitd.ac.in）
链接：
arXiv abs：https://arxiv.org/abs/2604.20665
v2 HTML：https://arxiv.org/html/2604.20665v2
PDF：https://arxiv.org/pdf/2604.20665
HF papers：https://huggingface.co/papers/2604.20665
版本：v1 2026-04-22 → v2 2026-05-21（v2 评论："Addresses practical viability of Vlabel construction. Writing is grounded. Acknowledgement is duly added"——作者自述修订回应 reviewer）
分类：cs.CV / cs.AI；属"评测方法学 / 理论批判"。

1.2 核心贡献（基于摘要 + HF Librarian Bot 评论，未读全文）

观察 / 立场：
当前 VLM 的繁荣"rest on an under-examined assumption: that current VLMs faithfully synthesise multimodal data"。
指出 SOTA VLM 普遍存在 functional blindness：靠强语言先验绕过视觉表征瓶颈，而不是真的"看"到了视觉信息。
直接挑战当前评测主流：data ablation 或 new dataset creation 会"fatal conflate dataset biases with architectural incapacity"——即消融实验把"数据偏置"和"架构缺陷"混为一谈。
方法：
Modality Translation Protocol (MTP)：跨模态翻译语义负载（而不是消融掉），保留语义 payload。
三指标：
- Toll of Seeing (ToS)：图像→文本翻译中信息损失的下界估计。
- Curse of Seeing (CoS)：在保语义前提下，最大可压缩比 / 信息密度的反向度量。
- Fallacy of Seeing (FoS)：文本答案与图像原文反向回译一致性中的失败率。
Semantic Sufficiency Criterion (SSC)：把上述三个指标组合成一个"语义充分性"判定门槛。
核心假设 / 主张：
Divergence Law of Multimodal Scaling：随着底层 LLM 推理能力 scaling 到前所未有水平，视觉知识瓶颈带来的"看见代价"反而增加而不是减少。换言之，"语言越强 → 越容易用语言捷径骗过视觉检查"。
主张学界应放弃把 "multimodal gain" 作为第一评测目标，转用 SSC 作为架构蓝图。
作者自陈局限（HF Librarian Bot 抓取）：
"no released benchmark can yet compute them"——即作者承认 ToS/CoS/FoS/SSC 当前还没有公开可用的大规模 benchmark 能直接跑出来。
这等于把"理论框架已建立，工程落地未完成"作为 v2 的真实状态。

1.3 反方审稿（flyP 批判）

✅ 学术勇气高：当前 2026 年 VLM 圈正处在"造更难的 VQA 基准"的军备竞赛，ReactBench / FREAK / VDR-Bench / Med-StepBench 等一篇接一篇。这篇单作者论文反其道而行，直接说"你们的方法学地基有问题"，符合 flyP 该扛的反方立场。
✅ 方法学有锚点：把"消融"换成"翻译/回译"是信息论里常见 trick（翻译任务保语义、消融任务破坏语义），在 MTP 框架下 ToS/CoS/FoS 在概念上自洽。
✅ Divergence Law 是可证伪假设：不是修辞，是带 scaling 因变量的可量化预测。如果是真的，会颠覆"再训一个更强 LLM 就能自动解决多模态幻觉"的乐观叙事。
⚠️ 单作者 + IIIT Delhi：单作者 + 单机构的工作在 VLM 圈通常意味着"算力/数据规模受限"，论文更偏理论批判而非工程落地；如果有第三方实验室复现 MTP 在主流 benchmark 上的数字会更可信。待补查第三方引用情况。
⚠️ "no released benchmark can yet compute them" 是硬伤：自己承认指标没法在已发布 benchmark 上跑——意味着这篇论文目前的实证基础是受控实验（很可能作者自己造的小集合），无法回答"GPT-4o / Claude / Gemini / Qwen-VL 在 SSC 上排第几"。在 2026 年 VLM 圈，这种"没法 rank 主流模型"的论文很容易被快速遗忘。待补查 v2 是否给出新基准/数据链接。
⚠️ "Vlabel construction" 评审评论：v2 注明审稿人提了"Vlabel 的可构造性"——这是指标能否落地的关键变量；v2 给出"acknowledgement added"听上去更像是文字回应而非工程修复，意味着 Vlabel 协议对数据/标注方仍有重依赖。待人工读 v2 修订节。
⚠️ Divergence Law 的实证风险：要证伪它需要一个长 scaling 曲线（不同 LLM 规模 × 不同 VLM 配置），这是 OpenAI/Google/Anthropic 才能跑得起的实验。论文里若只给 2-3 个点，结论大概率被质疑"overfit"。待补查实验设计。
⚠️ 可能被误读为"否定 VLM"：Divergence Law 若被不严谨引用，容易滑向"语言 LLM 永远搞不好视觉"的悲观叙事；论文需要明确它是"在 monolithic paradigm 下"的限定结论，是否适用于未来的 modular / interleaved / agentic VLM 仍待论证。待补查局限章节。
⚠️ 缺少与同期"反方"工作对照：
Cambrian-1 / LLaVA / InternVL 团队都做过"视觉编码器 vs LLM bottleneck"的类似诊断；
Molmo / PixMo、SaMM 等数据集方强调"数据多样化能压住语言捷径"——这些是"反驳 Divergence Law"的潜在证据，论文应正面回应而非忽略。待人工核验 v2 相关工作部分。

1.4 可信度

学术立场可信度：A-（批判角度扎实，与 HF Librarian Bot 自动总结一致；信息论框架有支撑）。
实证可信度：B-（承认"无可跑 benchmark"，v2 评审提到 Vlabel 构造性问题，第三方复现尚无）。
写作可信度：B+（v2 评论："Writing is grounded"，结构清晰）。
工业/落地可信度：C（短期不太可能进入模型选型评估流程；适合作为方法学反思 / 综述 / 教学引用）。
综合：B（强烈建议入库但标注"理论批判型 / 待第三方复现"）。

1.5 风险与盲点

指标与 benchmark 解耦：ToS/CoS/FoS 没有公开数据集绑定，工业界很难立刻用上。
Divergence Law 易被过度引申：作者要小心别被读成"否定 scaling"。
functional blindness 的定义偏软：论文需要给出一个可操作的"语言先验绕过视觉"判定准则，否则"functional blindness"会被各派随意套用。
MMLM/MLRM 阵营未充分对照：本论文未与 C3PO（CoT 压缩 + CPO）、VL-PRM（test-time scaling）等工作显式对话；这些工作本质是在"绕过语言捷径"，与 Divergence Law 假说可能有直接冲突。
未触及 audio / video / 3D 多模态：题目写"Multimodal"，但视觉-语言为主。

1.6 裁决

建议入库：✅ 是；分类为 topics/multimodal-evaluation-methodology.md 主条目 + reviews/2026-06-18-expense-of-seeing-review.md。
是否需要二次精读：建议。下一次精读 v2 PDF，重点核对：(a) ToS/CoS/FoS 的具体数学定义；(b) Divergence Law 的实验 setup；(c) "no released benchmark" 这句话的精确边界；(d) 与 C3PO / VL-PRM 的对照。
建议笔记路径：research-kb/notes/multimodal-evaluation/expense-of-seeing-divergence-law.md
后续验证动作（不本轮执行）： 1. 抓 v2 PDF §4-§6，看 scaling 实验与 ablation； 2. 查 IIIT Delhi 实验室是否同期放出 benchmark/数据集； 3. 跟进 HF papers 上引用该文的 0-citing 状态变化； 4. 与 ContextRL（2026-06-17 flyP 精读） 的"训练侧多模态 RL"做对照——如果 Divergence Law 为真，ContextRL 类方法在中后期可能反而受益（language prior 被 RL 矫正）。

2. Substack 思路对照：mlfrontiers "LLM Evaluation: The New Bottleneck in AI"

作者/专栏：ML Frontiers（subscriber 量级中等的工程 newsletter）
链接：https://mlfrontiers.substack.com/p/llm-evaluation-the-new-bottleneck
时间：2026 视角文章（"It is 2026..."）。
性质：业界视角对 LLM 评测瓶颈的反思，不是新论文但与本轮论文立场高度共振。
与本轮精读的呼应： 1. "评估跟不上模型" 行业共识 → 与 "Expense of Seeing" 的"评测方法学地基有问题"形成"业界-学界"两条反思线。 2. 文章列举 HELM / Chatbot Arena / LLM-as-a-Judge 三条主线，Expense of Seeing 论文对应的是 HELM 路线的"指标可计算性"问题，三者共同指向"评测基础设施是 2026 年的卡点"。 3. 文章没专门讨论多模态；这是它与本轮论文互补的地方——学界正在补这一块空缺，但还没补完。
可信度：B+（业界 newsletter，思路清晰，但缺少学术引证）。
行动建议：把本条作为 notes/substack-watchlist-2026-06-18.md 第 2 条入档（与今早 SPEC-RL 轮的 Kaitchup 形成"训练侧 + 评测侧"两条预测线）。
不复制原文，只做摘要与链接引用。

3. 其他候选（仅扫描，不展开）

ReactBench (arXiv:2605.29579)：cause-driven 多任务幻觉评测（Relational Erasure / Counterfactual Attribute / Alteration Tracing / Dense Counting）。是"造新数据集"路线的代表，立场与本轮对立——值得未来做对照精读。待补查代码与第三方引用。
FREAK (arXiv:2603.19765)：细粒度反常识编辑图像上的幻觉评测，1,799 题 / 6 类。待补查代码与 leaderboard。
C3PO (arXiv:2602.03380)：CoT 压缩 + 对比偏好优化抑制 reasoning-driven 幻觉。和 ContextRL 形成"训练侧"对照。待精读。
Med-StepBench (arXiv:2605.10002)：医学 PET/CT 多步幻觉评测，12,000 图 / 1,000,000 image-statement 对。领域垂直但工程量大。待精读。
VDR-Bench / Vision-DeepResearch (arXiv:2602.02185)：vision-deep research 多模态检索系统评测。agent + 多模态交叉方向。待精读。
swordlidev/Evaluation-Multimodal-LLMs-Survey：GitHub 上 200+ MLLM 基准的综述仓库，可作为本主题页的参考资料。待人工确认活跃度。

4. 分类标签

Multimodal Evaluation Methodology
Vision-Language Model
Functional Blindness / Language Prior Bypass
Modality Translation Protocol (MTP)
Semantic Sufficiency Criterion (SSC)
Divergence Law of Multimodal Scaling
Theoretical Critique / Position Paper
Substack-Industry-Perspective

5. 写入路径

5.1 本轮实际写入

/shared/research-kb/inbox/flyp/2026-06-18-Expense-of-Seeing-multimodal-evaluation-critique.md（即本文件）

5.2 后续建议路径（本轮未写入，待同步任务串行处理）

research-kb/notes/multimodal-evaluation/expense-of-seeing-divergence-law.md（精读笔记）
research-kb/reviews/2026-06-18-expense-of-seeing-review.md（反方审稿短文）
research-kb/topics/multimodal-evaluation-methodology.md（若尚未建立，建议补建；与 topics/multimodal-hallucination.md 区分开）
research-kb/registry/papers.jsonl（新增一行： { "id":"arxiv-2604.20665","title":"The Expense of Seeing","tags":["multimodal-evaluation","MTP","SSC","divergence-law","functional-blindness"],"score":"B","date":"2026-06-18","author":"flyP","status":"theoretical-critique"} }）
research-kb/registry/substack.jsonl（新增一行： { "id":"mlfrontiers-llm-eval-bottleneck","author":"ML Frontiers","url":"https://mlfrontiers.substack.com/p/llm-evaluation-the-new-bottleneck","tags":["evaluation","bottleneck","HELM","arena"],"score":"B+","date":"2026-06-18","author-instance":"flyP"} }）

6. 待人工 / 后续验证动作汇总

抓 arXiv 2604.20665v2 PDF 全文（不本轮做），重点核对 ToS/CoS/FoS 数学定义与 Divergence Law 实验 setup；
查 HF papers 上引用计数（提交时为 0），观察 2 周内增长；
查 IIIT Delhi 是否放出配套 benchmark / 数据集；
下一轮 flyP 候选：ReactBench / C3PO / Med-StepBench 任选 1 篇做对照精读；
与 ContextRL（06-17）做"训练侧矫正 vs 评测侧诊断"对照笔记。

7. 一句话反方审稿

"The Expense of Seeing" 在 2026 年 VLM 圈造基准的军备竞赛中是一股难得的清流：它不造数据集，而是直接指出"造数据集"这个评测范式本身把数据偏置和架构缺陷混为一谈；提出 ToS/CoS/FoS/SSC + Divergence Law 自洽但"no released benchmark can yet compute them"是硬伤。建议入库、强烈建议二次精读，但短期内别直接拿来给模型打分。