← 笔记
Tom 2026-06-17

RAG · 检索与重排文献速览

产出日期:2026-06-17 主题:RAG 检索优化、查询改写、重排机制、长文档知识库 本次候选:8 条(arXiv 2026-06-11~17)


📌 高价值条目(4 条)

1. RL-Index:索引侧推理强化学习

  • 标题:RL-Index: Reinforcement Learning for Retrieval Index Reasoning
  • 来源:arXiv 2606.16316 | 2026-06-15
  • 作者:Yongjia Lei, Nedim Lipka, Zhisheng Qi et al.
  • 核心:现有方法聚焦查询侧推理(查询改写),引入在线延迟;本文提出在知识语料侧做索引推理(index-side reasoning),通过强化学习让索引结构本身适配隐式复杂推理任务(如数学定理复用、深度代码推理)。
  • 标签:#agent #rag #benchmark #systems
  • 价值点:范式转换——从 query rewrite 转向 index reasoning,值得追踪。

2. Ricci-Filtration:几何曲率驱动的 RAG 重排

  • 标题:Ricci-Filtration: Boosting RAG Reranker to Query-Answer Tasks by Discrete Ricci Flow
  • 来源:arXiv 2606.15482 | 2026-06-13
  • 作者:Tian Qin, Wei-Min Huang
  • 核心:将离散 Ricci 流(曲率引导的图扩散)引入 RAG 重排——将 query 和 chunks 建模为网络,通过曲率驱动调整边权重,增强簇间分离。几何直觉新颖,与图神经网络传统方法路线不同。
  • 标签:#rag #benchmark
  • 价值点:几何/拓扑方法应用于检索重排,思路独特,理论背景强。

3. ScoreGate:双分数自适应块选择

  • 标题:ScoreGate: Adaptive Chunk Selection for RAG via Dual-Score Statistical Fusion
  • 来源:arXiv 2606.14269 | 2026-06-12
  • 作者:Karamvir Singh, Arvind Jain
  • 核心:现有固定 Top-K 检索对简单查询过召回、对组合查询欠召回。ScoreGate 利用 bi-encoder 相似度 + cross-encoder 重排分两个分数,通过统计融合控制检索基数,无需额外模型推理调用。
  • 标签:#rag #benchmark #systems
  • 价值点:轻量、无额外推理成本,工程落地性强。

4. CQC-RAG:跨查询一致性增强 RAG 鲁棒性

  • 标题:CQC-RAG: Robust RAG via Cross-Query Consistency
  • 来源:arXiv 2606.13438 | 2026-06-11
  • 作者:Yanjia Sun, Sifan Liu, Jie Shao
  • 核心:同义不同句的查询导致不同检索结果,无关/误导性文档引发幻觉。现有 multi-path 方法通过采样+投票改进,但存在多样性不可控、解码偏置等问题。CQC 通过跨查询一致性信号增强生成可靠性。
  • 标签:#rag #benchmark
  • 价值点:RAG 可靠性/幻觉问题针对性研究,与实际系统痛点高度相关。

📋 全部候选(8 条)

# 标题 日期 标签
1 RL-Index (检索索引推理 RL) 06-15 #agent #rag #systems
2 Ricci-Filtration (Ricci 流重排) 06-13 #rag #benchmark
3 ScoreGate (自适应块选择) 06-12 #rag #systems
4 CQC-RAG (跨查询一致性) 06-11 #rag #benchmark
5 CoRe (持续微调查询改写) 06-12 #multimodal #systems
6 MAGE-RAG (长文档多粒度图证据) 06-14 #agent #rag #multimodal
7 When Rules Learn (法律案例检索规则自进化) 06-15 #agent #rag #benchmark
8 Rethinking RAG in Long Videos (视频 RAG) 06-11 #rag #multimodal #systems

💡 次高价值提示

  • CoRe(#5):生产级 Query Rewriter,已在短视频搜索引擎周级部署超 5 个月,reward 设计(使用在线融合代数)值得关注。
  • MAGE-RAG(#6):多粒度自适应图证据框架,对长 PDF 多模态 QA 有直接参考价值。
  • When Rules Learn(#7):BM25 + LLM Agent 规则自进化,无需参数训练,法律/垂直领域检索迁移性强。

📦 元数据

  • 候选 JSON/shared/research-kb/inbox/tom/_candidates/latest-rag-retrieval-reranking.json
  • 搜索策略:arXiv 元数据为主,Substack/Medium 补充(本次未纳入额外条目,质量不及上述 arXiv 论文)
  • CSDN 使用:无(本次无明确高价值工程文)
  • 耗时:约 8 分钟