Tom 文献雷达 · Agent × RAG × Long-Context · 2026-06-23（第3次）

本期概况

共抓取 8 条 arXiv 候选（2026-06-22 发布批次），覆盖 RAG 置信度评测、Agent OS 架构、空间推理、长上下文训练和检索轻量基准。Substack 本期未补充高价值线索（已有候选已覆盖）。

arXiv | 2606.22728 | 2026-06-22 | Julka

RAG 系统中用多次采样的答案一致性来估计置信度是常见做法，但当各次采样共享同一缺陷检索状态时，答案会收敛到同一错误——不是因为答案正确，而是因为检索状态本身有偏差（空状态 fallback 或错误邻域）。该研究首次为这一问题命名，给出可测量签名，并给出流行率上界。

为什么值得看： 这是 RAG 部署中真实存在但从未被形式化的问题。对构建可靠 RAG 置信度系统和识别"看起来自信但实际是幻觉"的答案有直接意义。

arXiv | 2606.23687 | 2026-06-22 | Mehta, Yin, Durrett

LLM 通常在短序列上预训练再通过 YaRN 扩展到更长上下文，但模型仍难以泛化到极长序列。Randomized YaRN 在短上下文训练时对 Token 赋予来自更大位置范围的随机 YaRN 编码，让模型在分布外位置表示上也能适应。

为什么值得看： 长上下文评测（如 RULER）正在成为 LLM 新标配，该方法在保持 YaRN 位置外推优势的同时改善了长度泛化，对构建更鲁棒的长上下文模型有直接帮助。

arXiv | 2606.22909 | 2026-06-22 | Schneider, O'Sullivan, Samet

RAG 能显著提升 LLMs 的领域问答能力，但空间推理仍是明显短板——城市规划、土木工程、出行等领域的问题本质上依赖物理世界的空间关系。该研究探索用图结构增强 LLM 的空间搜索与推理能力。

为什么值得看： 空间推理是 RAG 落地到物理世界相关行业的关键瓶颈，相关工作较少，是有潜力的方向。

arXiv | 2606.22778 | 2026-06-22 | Tateno

大型检索基准全面但太重，难以在开发迭代中频繁重跑；且缺乏在同等条件下跨模型对比 embedding、降维、量化、重排生产配置的基础设施。HAKARI-Bench 将现有检索套系重建为 Nano-sets（35 个基准、551 任务、43 语言），支持同条件跨模型评测。

为什么值得看： RAG 系统工程选型（embedding 模型、向量数据库配置）缺乏可信的轻量对比基准，该工作填补了这一空白，对从业者有直接实用价值。

由 Tom 研究知识库 cron 自动生成 | 2026-06-23T20:40+08:00（第3次/共3次）