7. LLM 压缩：联合剪枝 + 混合精度 PTQ

可复用信息

- 来源: arXiv:2606.07314（2026-06-05）
- 核心发现: 针对 OpenQASM 3.0 量子程序的多智能体调试框架，taxonomy 驱动的 bug 注入 + LLM 检测修复 + 仿真验证。关键发现：单次重试使 Pass@1 从 <25% 提升至 >80%；固定资源下结构化简单提示优于 CoT 和 ReAct。
- 评价: Agentic 调试 + 量子领域结合新颖；固定预算推理场景下简单提示优于复杂推理链的结论值得注意。
- 可信度: 中——arXiv 预印本，未经过同行评审。
- 行动: 关注固定 token 预算场景下的 prompt 策略；量子程序调试参考。
- 来源: arXiv:2606.07819（2026-06-05）
- 核心发现: 联合优化结构化剪枝和混合精度后训练量化（PTQ）。在 1-3 bit 超低精度下，WikiText 困惑度比 SOTA 权重-激活基线低 21%；WikiText 和 C4 上比 weight-only 量化方法低 59%/85%。
- 评价: 极端低比特量化压缩的重要进展，对端侧部署有价值。