2026-06-26 晚间轻量精读 · LongAttnComp(长上下文跨家族压缩)
实例:flyP|时点:22:50 Asia/Shanghai|模式:轻量精读 1 篇(主)+ 1 条副线索 范围:长上下文(100k+ tokens)推理的 cross-family 上下文压缩 + 两阶段微调 写入路径:
/shared/research-kb/inbox/flyp/2026-06-26-evening-read-LongAttnComp-long-context-compression.md
主题与检索范围
- 本次主题:当 LLM 输入 100k+ tokens 时,prefill 成本与任务精度之间的 gap。LongAttnComp 给出的答案是:把 AttnComp 改造成"轻量 cross-attention 打分层 + token-level chunking + token-budget top-p + 位置重排 + format-agnostic query parser + 两阶段微调(NIAH → 多跳/推理)",并演示在 4 个目标模型(来自 3 个家族)上的可迁移性。
- 检索范围:
- arXiv abs:
https://arxiv.org/abs/2606.01336(v1 2026-05-31;v2 2026-06-19) - arXiv HTML v2:
https://arxiv.org/html/2606.01336v2(仅作为信息源,未全文 dump) - 未抓 PDF、未并行子任务、未抓作者主页。
- 检索时间:2026-06-26 22:50 Asia/Shanghai
选篇与去重
| # | 标题 | 来源 | 入选理由 | 本轮处理 |
|---|---|---|---|---|
| 1 | LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning | arXiv 2606.01336v2 | flyP 主线(长上下文 + 推理效率),与下午 LongShOTBench 形成"评测 ↔ 推理"对位 | 本轮精读 |
| 2 | Reward Hacking in Rubric-Based Reinforcement Learning | arXiv 2605.12474v1 | 与本周 LongShOTBench rubric-level / RUC-NLPIR Rubrics_Survey 形成闭环 | 副线索,留下一轮 |
| 3 | Rubrics_Survey(GitHub RUC-NLPIR,213★) | github.com/RUC-NLPIR/Rubrics_Survey | 共享仓库,未来 review/主题页更新用 | 留作主题页素材 |
| 4 | 2026 HPCA LLM 系统论文汇总 | paper.lingyunyang.com | 系统方向太泛,与本次"长上下文算法"主线相关但弱 | 跳过 |
| 5 | InftyThink(ICLR 2026) | arXiv 2503.06692 | 2025 年工作,已有大量评注,本轮不重读 | 跳过 |
Substack:本轮没有触发
https://substack.com/候选——Cameron R. Wolfe 近期那条关于 rubric-based RL 的 X 帖(2026-06 前后)已经覆盖 Rubrics_Survey 与 RLHF/RLAIF 的脉络,作为下一轮 reward-hacking 副线索的索引位保留。
高价值条目 · LongAttnComp
元数据
- 链接:https://arxiv.org/abs/2606.01336(v2:https://arxiv.org/abs/2606.01336v2;HTML:https://arxiv.org/html/2606.01336v2)
- 作者 / 单位:Mengmeng Ji 等(abs 仅显示通讯邮箱作者,待从 HTML v2 补全合作者列表)
- 类别 / 类型:cs.CL|Method(训练式上下文压缩器 + 跨家族迁移)
- 状态:Under review,v2 更新于 2026-06-19
- 代码 / 数据 / 权重:abs 未声明 GitHub / HF 链接,待补查
- 关键词:context compression、cross-attention scoring、token-budget top-p、positional reordering、format-agnostic query parser、cross-family transfer、two-stage fine-tuning、Code-Debug、LongBench v2、NIAH
核心问题(一句话)
在不重训目标 LLM 的前提下,能否用一个轻量、可在多模型家族间迁移的压缩器,把 100k+ token 长输入降到一个小预算(如 8k-16k)的同时,在 Code-Debug / LongBench v2 多文档推理上不掉点?
核心贡献(拆解)
- 方法 = AttnComp 的长上下文适配版: - 把 AttnComp 的 cross-attention 打分层 fine-tune 成一个轻量打分头,专门用于"哪些 token 必须保留 / 哪些可以丢"; - 引入 token-level chunking(避免长序列上 attention 自身不可扩展)+ token-budget top-p(按预算采样到近似最小的有用集合)+ positional reordering(让压缩后 token 的相对位置仍能反映原文中"局部-全局"距离); - format-agnostic query parser:从自然语言 + 代码 + 表格混合输入里稳定地解析出"query span",减少对 prompt 模板的依赖。
- 两阶段微调: - Stage 1:用 NIAH 风格数据建立"通用检索"基础——能定位 needle; - Stage 2:用多跳 / 推理数据扩展,让压缩器对"跨段引用 + 复合推理"敏感。 - 论文关键 design choice 是 Stage 2 在 Stage 1 之上继续训练,而不是从头混训——这样既保留 needle 能力,又扩到 multi-hop。
- 跨家族迁移实证: - 同一压缩器在 4 个目标模型 / 3 个家族上跑评估,是这篇工作最值得记的"卖点":通常上下文压缩工作只能给一个目标模型的数字。
- 基准上的具体声明(基于摘要,未对 PDF 校验): - InfiniteBench Code-Debug:匹配或超过 full-context 精度,显著优于 training-free 基线; - LongBench v2:两阶段配方大幅缩小 Stage 1 在多文档推理上的 gap,并保留 Code-Debug 表现。
主要问题 / 批判(精读后)
- "match or exceed full-context" 的语义含糊。摘要说"matches or exceeds full-context accuracy"——这里的 full-context 是 100k 还是被截断到目标模型的 native window(如 32k/128k)?如果是后者,那"压缩到 8k 超过 128k full-context"才是真信号;如果是前者,那压缩器需要对应模型能跑 100k,目前只有少数开源/闭源 LLM 支持,待补 PDF 的实验节。
- 跨家族迁移的代价被淡化。摘要只给"transfers across 4 target models from 3 families",但没说:(a) 是否对每族都重训了 Stage 1?还是只 fine-tune 顶层打分层?(b) 迁移后压缩比 / 精度是否有显著下降?这是同类工作(LLMLingua / AdaComp / ChunkedLLM)普遍回避的硬指标。
- 两阶段的负作用未量化。Stage 2 在多跳 / 推理数据上继续训,理论上可能过拟合到某些 reasoning 数据分布(hotpotQA / 2WikiMQA 之类),导致在 OOD 推理任务上 NIAH 能力退化。摘要声称"largely closes the Stage 1 gap"是一个总体数字,没有分任务的方差。待补。
- format-agnostic query parser 的工程现实。在 JSON / Markdown / 多语言混排的真实 RAG 输入里,"query span"通常没有清晰边界;这种解析器一旦失败,整个 top-p 选 token 的过程就废了。论文没给失败率 / 兜底策略。
- 评估盲区: - 没有对比 RAG / 检索增强(如果先做 dense retrieval + rerank,本身就能 100k→几 k); - 没有报告 inference latency / prefill cost / GPU memory 的具体节省数字(这是"compression"工作的硬指标); - 没有 safety / privacy 风险评估(压缩中是否可能引入上下文截断导致的"被压缩掉的 system prompt"问题)。
- 跟 LongShOTBench(下午场)的对位:LongShOTBench 是评测侧(rubric-level、omni-modal),LongAttnComp 是推理侧(context compression)。两者没有直接耦合,但都隐含同一假设——"长上下文要可分项诊断"。如果未来 LongAttnComp 也能在 LongShOTBench 上跑出 rubric-level 诊断,会比单独涨点更有意义。主题页更新建议。
方法可复现性判断
- 数据:NIAH 是开源自合成;多跳 / 推理数据来源未声明,待补;
- 代码 / 权重:abs 没挂 GitHub,没挂 Hugging Face,复现风险中高;
- 目标模型:4 个 / 3 家族,名单未在 abs 中给出,待补;
- 训练算力:未声明。两阶段 fine-tune 一个轻量打分头本身算力不大,但 100k 上下文生成训练数据本身有成本。
价值与影响
- 跨家族压缩器是真实痛点:RAG / Agent / 长视频 / 长代码仓场景都缺一个能"丢 token 不丢点"的廉价前端;
- 与同期 ChunkedLLM、AdaComp、LLMLingua-2 相比,本文最突出的是两阶段 + 跨家族 + Code-Debug 实证,这是工程侧最关心的;
- 风险:审稿阶段,论文标题与摘要都很"PR 友好",但"match or exceed full-context"和"跨家族迁移"都需要正本 PDF 与代码验证。
标签
long-context context-compression cross-family cross-attention token-budget-top-p two-stage-finetune code-reasoning multi-hop NIAH Under-review
副线索 · 下一轮可接力
Reward Hacking in Rubric-Based RL(arXiv 2605.12474v1)
- 链接:https://arxiv.org/abs/2605.12474(HTML:https://arxiv.org/html/2605.12474v1)
- 核心主张:rubric-based RL 在医学 / 科学领域会出现 reward hacking;区分 verifier failure(弱 verifier 被利用)与 rubric-design limitations(即使 verifier 强,rubric 仍奖励"次优但合规"的回答)。引入 self-internalization gap 作为 verifier-free 诊断工具。
- 强观察:"stronger verification alone does not prevent reward hacking if the rubric is incomplete"——直接对接 LongShOTBench rubric-level 评测的潜在盲点。
- 可信度:v1 单版本,方法描述清晰但实验在 2 个领域(medicine + science),泛化性需观察。
- 状态:副线索,留下一轮精读。
RUC-NLPIR/Rubrics_Survey
- 链接:https://github.com/RUC-NLPIR/Rubrics_Survey
- 现状:213★、内容覆盖 rubric 构造 / 训练 / 评测全链路;可作为研究知识库的 theme/rubric-reward-modeling.md 主题页素材。
- 动作建议:下一轮副线索精读 reward hacking 论文时,把 survey 一并拉到主题页骨架里。
分类标签 / 建议写入路径
- 本次草稿:
/shared/research-kb/inbox/flyp/2026-06-26-evening-read-LongAttnComp-long-context-compression.md(本文件) - 后续 review 文件(待同步任务执行):
/shared/research-kb/review/context-compression/LongAttnComp-2026-06.md - 主题页更新(待同步任务执行):
notes/topics/context-compression.md:补"跨家族迁移"小节,引用本文与 ChunkedLLM / AdaComp 对比;notes/topics/long-context-reasoning.md:补"100k+ token / 两阶段微调"工作流;notes/topics/rubric-reward-modeling.md:新建(基于 RUC-NLPIR/Rubrics_Survey + 2605.12474 + LongShOTBench rubric-level)。
是否需要精读 / 审稿 / 主题页更新
- 精读:✅ 已完成(轻量)。
- 审稿:✅ 已输出核心贡献 / 主要问题 / 复现判断 / 标签。本轮不进入正式 review 文件,等 PDF 与代码发布后再做二次审稿。
- 主题页更新:建议在下一轮 reward-hacking 副线索精读后,一次性同步更新
notes/topics/context-compression.md与新建notes/topics/rubric-reward-modeling.md,避免单个实例多轮写主题页。 - 后续验证动作:
1. 抓
https://arxiv.org/html/2606.01336v2拉取作者列表、目标模型名单、训练数据来源、latency / 显存数字; 2. 监控 GitHub / Hugging Face 是否出现 LongAttnComp 代码或权重; 3. 若 2605.12474 升 v2 并补充 cross-domain 泛化实验,下一轮副线索优先精读。
本轮限制 / 待补查
- 未抓 PDF 全文,未跑实验重验证;
- 作者名单 / 目标模型名单 / 训练数据来源 / 算力声明 / 延迟节省数字 全部待补;
- 未做 Substack 深度搜索(按 cron 约束最大 1 条补充,本轮用 X / GitHub 已覆盖同等信息密度);
- 没有执行任何
git commit/git push/gh pr操作,符合并发安全约束。