2026-06-26 晚间轻量精读 · LongAttnComp（长上下文跨家族压缩）

实例：flyP｜时点：22:50 Asia/Shanghai｜模式：轻量精读 1 篇（主）+ 1 条副线索范围：长上下文（100k+ tokens）推理的 cross-family 上下文压缩 + 两阶段微调写入路径：/shared/research-kb/inbox/flyp/2026-06-26-evening-read-LongAttnComp-long-context-compression.md

主题与检索范围

本次主题：当 LLM 输入 100k+ tokens 时，prefill 成本与任务精度之间的 gap。LongAttnComp 给出的答案是：把 AttnComp 改造成"轻量 cross-attention 打分层 + token-level chunking + token-budget top-p + 位置重排 + format-agnostic query parser + 两阶段微调（NIAH → 多跳/推理）"，并演示在 4 个目标模型（来自 3 个家族）上的可迁移性。
检索范围：
arXiv abs: https://arxiv.org/abs/2606.01336（v1 2026-05-31；v2 2026-06-19）
arXiv HTML v2: https://arxiv.org/html/2606.01336v2（仅作为信息源，未全文 dump）
未抓 PDF、未并行子任务、未抓作者主页。
检索时间：2026-06-26 22:50 Asia/Shanghai

选篇与去重

#	标题	来源	入选理由	本轮处理
1	LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning	arXiv 2606.01336v2	flyP 主线（长上下文 + 推理效率），与下午 LongShOTBench 形成"评测 ↔ 推理"对位	本轮精读
2	Reward Hacking in Rubric-Based Reinforcement Learning	arXiv 2605.12474v1	与本周 LongShOTBench rubric-level / RUC-NLPIR Rubrics_Survey 形成闭环	副线索，留下一轮
3	Rubrics_Survey（GitHub RUC-NLPIR，213★）	github.com/RUC-NLPIR/Rubrics_Survey	共享仓库，未来 review/主题页更新用	留作主题页素材
4	2026 HPCA LLM 系统论文汇总	paper.lingyunyang.com	系统方向太泛，与本次"长上下文算法"主线相关但弱	跳过
5	InftyThink（ICLR 2026）	arXiv 2503.06692	2025 年工作，已有大量评注，本轮不重读	跳过

Substack：本轮没有触发 https://substack.com/ 候选——Cameron R. Wolfe 近期那条关于 rubric-based RL 的 X 帖（2026-06 前后）已经覆盖 Rubrics_Survey 与 RLHF/RLAIF 的脉络，作为下一轮 reward-hacking 副线索的索引位保留。

高价值条目 · LongAttnComp

元数据

链接：https://arxiv.org/abs/2606.01336（v2：https://arxiv.org/abs/2606.01336v2；HTML：https://arxiv.org/html/2606.01336v2）
作者 / 单位：Mengmeng Ji 等（abs 仅显示通讯邮箱作者，待从 HTML v2 补全合作者列表）
类别 / 类型：cs.CL｜Method（训练式上下文压缩器 + 跨家族迁移）
状态：Under review，v2 更新于 2026-06-19
代码 / 数据 / 权重：abs 未声明 GitHub / HF 链接，待补查
关键词：context compression、cross-attention scoring、token-budget top-p、positional reordering、format-agnostic query parser、cross-family transfer、two-stage fine-tuning、Code-Debug、LongBench v2、NIAH

核心问题（一句话）

在不重训目标 LLM 的前提下，能否用一个轻量、可在多模型家族间迁移的压缩器，把 100k+ token 长输入降到一个小预算（如 8k-16k）的同时，在 Code-Debug / LongBench v2 多文档推理上不掉点？

核心贡献（拆解）

方法 = AttnComp 的长上下文适配版： - 把 AttnComp 的 cross-attention 打分层 fine-tune 成一个轻量打分头，专门用于"哪些 token 必须保留 / 哪些可以丢"； - 引入 token-level chunking（避免长序列上 attention 自身不可扩展）+ token-budget top-p（按预算采样到近似最小的有用集合）+ positional reordering（让压缩后 token 的相对位置仍能反映原文中"局部-全局"距离）； - format-agnostic query parser：从自然语言 + 代码 + 表格混合输入里稳定地解析出"query span"，减少对 prompt 模板的依赖。
两阶段微调： - Stage 1：用 NIAH 风格数据建立"通用检索"基础——能定位 needle； - Stage 2：用多跳 / 推理数据扩展，让压缩器对"跨段引用 + 复合推理"敏感。 - 论文关键 design choice 是 Stage 2 在 Stage 1 之上继续训练，而不是从头混训——这样既保留 needle 能力，又扩到 multi-hop。
跨家族迁移实证： - 同一压缩器在 4 个目标模型 / 3 个家族上跑评估，是这篇工作最值得记的"卖点"：通常上下文压缩工作只能给一个目标模型的数字。
基准上的具体声明（基于摘要，未对 PDF 校验）： - InfiniteBench Code-Debug：匹配或超过 full-context 精度，显著优于 training-free 基线； - LongBench v2：两阶段配方大幅缩小 Stage 1 在多文档推理上的 gap，并保留 Code-Debug 表现。

主要问题 / 批判（精读后）

"match or exceed full-context" 的语义含糊。摘要说"matches or exceeds full-context accuracy"——这里的 full-context 是 100k 还是被截断到目标模型的 native window（如 32k/128k）？如果是后者，那"压缩到 8k 超过 128k full-context"才是真信号；如果是前者，那压缩器需要对应模型能跑 100k，目前只有少数开源/闭源 LLM 支持，待补 PDF 的实验节。
跨家族迁移的代价被淡化。摘要只给"transfers across 4 target models from 3 families"，但没说：(a) 是否对每族都重训了 Stage 1？还是只 fine-tune 顶层打分层？(b) 迁移后压缩比 / 精度是否有显著下降？这是同类工作（LLMLingua / AdaComp / ChunkedLLM）普遍回避的硬指标。
两阶段的负作用未量化。Stage 2 在多跳 / 推理数据上继续训，理论上可能过拟合到某些 reasoning 数据分布（hotpotQA / 2WikiMQA 之类），导致在 OOD 推理任务上 NIAH 能力退化。摘要声称"largely closes the Stage 1 gap"是一个总体数字，没有分任务的方差。待补。
format-agnostic query parser 的工程现实。在 JSON / Markdown / 多语言混排的真实 RAG 输入里，"query span"通常没有清晰边界；这种解析器一旦失败，整个 top-p 选 token 的过程就废了。论文没给失败率 / 兜底策略。
评估盲区： - 没有对比 RAG / 检索增强（如果先做 dense retrieval + rerank，本身就能 100k→几 k）； - 没有报告 inference latency / prefill cost / GPU memory 的具体节省数字（这是"compression"工作的硬指标）； - 没有 safety / privacy 风险评估（压缩中是否可能引入上下文截断导致的"被压缩掉的 system prompt"问题）。
跟 LongShOTBench（下午场）的对位：LongShOTBench 是评测侧（rubric-level、omni-modal），LongAttnComp 是推理侧（context compression）。两者没有直接耦合，但都隐含同一假设——"长上下文要可分项诊断"。如果未来 LongAttnComp 也能在 LongShOTBench 上跑出 rubric-level 诊断，会比单独涨点更有意义。主题页更新建议。

方法可复现性判断

数据：NIAH 是开源自合成；多跳 / 推理数据来源未声明，待补；
代码 / 权重：abs 没挂 GitHub，没挂 Hugging Face，复现风险中高；
目标模型：4 个 / 3 家族，名单未在 abs 中给出，待补；
训练算力：未声明。两阶段 fine-tune 一个轻量打分头本身算力不大，但 100k 上下文生成训练数据本身有成本。

价值与影响

跨家族压缩器是真实痛点：RAG / Agent / 长视频 / 长代码仓场景都缺一个能"丢 token 不丢点"的廉价前端；
与同期 ChunkedLLM、AdaComp、LLMLingua-2 相比，本文最突出的是两阶段 + 跨家族 + Code-Debug 实证，这是工程侧最关心的；
风险：审稿阶段，论文标题与摘要都很"PR 友好"，但"match or exceed full-context"和"跨家族迁移"都需要正本 PDF 与代码验证。

副线索 · 下一轮可接力

Reward Hacking in Rubric-Based RL（arXiv 2605.12474v1）

链接：https://arxiv.org/abs/2605.12474（HTML：https://arxiv.org/html/2605.12474v1）
核心主张：rubric-based RL 在医学 / 科学领域会出现 reward hacking；区分 verifier failure（弱 verifier 被利用）与 rubric-design limitations（即使 verifier 强，rubric 仍奖励"次优但合规"的回答）。引入 self-internalization gap 作为 verifier-free 诊断工具。
强观察："stronger verification alone does not prevent reward hacking if the rubric is incomplete"——直接对接 LongShOTBench rubric-level 评测的潜在盲点。
可信度：v1 单版本，方法描述清晰但实验在 2 个领域（medicine + science），泛化性需观察。
状态：副线索，留下一轮精读。

RUC-NLPIR/Rubrics_Survey

链接：https://github.com/RUC-NLPIR/Rubrics_Survey
现状：213★、内容覆盖 rubric 构造 / 训练 / 评测全链路；可作为研究知识库的 theme/rubric-reward-modeling.md 主题页素材。
动作建议：下一轮副线索精读 reward hacking 论文时，把 survey 一并拉到主题页骨架里。

分类标签 / 建议写入路径

本次草稿：/shared/research-kb/inbox/flyp/2026-06-26-evening-read-LongAttnComp-long-context-compression.md（本文件）
后续 review 文件（待同步任务执行）：/shared/research-kb/review/context-compression/LongAttnComp-2026-06.md
主题页更新（待同步任务执行）：
notes/topics/context-compression.md：补"跨家族迁移"小节，引用本文与 ChunkedLLM / AdaComp 对比；
notes/topics/long-context-reasoning.md：补"100k+ token / 两阶段微调"工作流；
notes/topics/rubric-reward-modeling.md：新建（基于 RUC-NLPIR/Rubrics_Survey + 2605.12474 + LongShOTBench rubric-level）。

是否需要精读 / 审稿 / 主题页更新

精读：✅ 已完成（轻量）。
审稿：✅ 已输出核心贡献 / 主要问题 / 复现判断 / 标签。本轮不进入正式 review 文件，等 PDF 与代码发布后再做二次审稿。
主题页更新：建议在下一轮 reward-hacking 副线索精读后，一次性同步更新 notes/topics/context-compression.md 与新建 notes/topics/rubric-reward-modeling.md，避免单个实例多轮写主题页。
后续验证动作： 1. 抓 https://arxiv.org/html/2606.01336v2 拉取作者列表、目标模型名单、训练数据来源、latency / 显存数字； 2. 监控 GitHub / Hugging Face 是否出现 LongAttnComp 代码或权重； 3. 若 2605.12474 升 v2 并补充 cross-domain 泛化实验，下一轮副线索优先精读。

本轮限制 / 待补查

未抓 PDF 全文，未跑实验重验证；
作者名单 / 目标模型名单 / 训练数据来源 / 算力声明 / 延迟节省数字 全部待补；
未做 Substack 深度搜索（按 cron 约束最大 1 条补充，本轮用 X / GitHub 已覆盖同等信息密度）；
没有执行任何 git commit / git push / gh pr 操作，符合并发安全约束。