Tom 2026-06-17

RAG · 检索与重排文献速览

产出日期：2026-06-17 主题：RAG 检索优化、查询改写、重排机制、长文档知识库 本次候选：8 条（arXiv 2026-06-11~17）

📌 高价值条目（4 条）

1. RL-Index：索引侧推理强化学习

标题：RL-Index: Reinforcement Learning for Retrieval Index Reasoning
来源：arXiv 2606.16316 | 2026-06-15
作者：Yongjia Lei, Nedim Lipka, Zhisheng Qi et al.
核心：现有方法聚焦查询侧推理（查询改写），引入在线延迟；本文提出在知识语料侧做索引推理（index-side reasoning），通过强化学习让索引结构本身适配隐式复杂推理任务（如数学定理复用、深度代码推理）。
标签：#agent #rag #benchmark #systems
价值点：范式转换——从 query rewrite 转向 index reasoning，值得追踪。

2. Ricci-Filtration：几何曲率驱动的 RAG 重排

标题：Ricci-Filtration: Boosting RAG Reranker to Query-Answer Tasks by Discrete Ricci Flow
来源：arXiv 2606.15482 | 2026-06-13
作者：Tian Qin, Wei-Min Huang
核心：将离散 Ricci 流（曲率引导的图扩散）引入 RAG 重排——将 query 和 chunks 建模为网络，通过曲率驱动调整边权重，增强簇间分离。几何直觉新颖，与图神经网络传统方法路线不同。
标签：#rag #benchmark
价值点：几何/拓扑方法应用于检索重排，思路独特，理论背景强。

3. ScoreGate：双分数自适应块选择

标题：ScoreGate: Adaptive Chunk Selection for RAG via Dual-Score Statistical Fusion
来源：arXiv 2606.14269 | 2026-06-12
作者：Karamvir Singh, Arvind Jain
核心：现有固定 Top-K 检索对简单查询过召回、对组合查询欠召回。ScoreGate 利用 bi-encoder 相似度 + cross-encoder 重排分两个分数，通过统计融合控制检索基数，无需额外模型推理调用。
标签：#rag #benchmark #systems
价值点：轻量、无额外推理成本，工程落地性强。

4. CQC-RAG：跨查询一致性增强 RAG 鲁棒性

标题：CQC-RAG: Robust RAG via Cross-Query Consistency
来源：arXiv 2606.13438 | 2026-06-11
作者：Yanjia Sun, Sifan Liu, Jie Shao
核心：同义不同句的查询导致不同检索结果，无关/误导性文档引发幻觉。现有 multi-path 方法通过采样+投票改进，但存在多样性不可控、解码偏置等问题。CQC 通过跨查询一致性信号增强生成可靠性。
标签：#rag #benchmark
价值点：RAG 可靠性/幻觉问题针对性研究，与实际系统痛点高度相关。

📋 全部候选（8 条）

#	标题	日期	标签
1	RL-Index (检索索引推理 RL)	06-15	#agent #rag #systems
2	Ricci-Filtration (Ricci 流重排)	06-13	#rag #benchmark
3	ScoreGate (自适应块选择)	06-12	#rag #systems
4	CQC-RAG (跨查询一致性)	06-11	#rag #benchmark
5	CoRe (持续微调查询改写)	06-12	#multimodal #systems
6	MAGE-RAG (长文档多粒度图证据)	06-14	#agent #rag #multimodal
7	When Rules Learn (法律案例检索规则自进化)	06-15	#agent #rag #benchmark
8	Rethinking RAG in Long Videos (视频 RAG)	06-11	#rag #multimodal #systems

💡 次高价值提示

CoRe（#5）：生产级 Query Rewriter，已在短视频搜索引擎周级部署超 5 个月，reward 设计（使用在线融合代数）值得关注。
MAGE-RAG（#6）：多粒度自适应图证据框架，对长 PDF 多模态 QA 有直接参考价值。
When Rules Learn（#7）：BM25 + LLM Agent 规则自进化，无需参数训练，法律/垂直领域检索迁移性强。

📦 元数据

候选 JSON：/shared/research-kb/inbox/tom/_candidates/latest-rag-retrieval-reranking.json
搜索策略：arXiv 元数据为主，Substack/Medium 补充（本次未纳入额外条目，质量不及上述 arXiv 论文）
CSDN 使用：无（本次无明确高价值工程文）
耗时：约 8 分钟