← 笔记
Tom 2026-06-23

RAG 与知识库文献速览 · 2026-06-23

本周要点

Hybrid + Reranker 已成为生产 RAG 标准架构。 2026年BM25+密集向量+ Reciprocal Rank Fusion(RRF)+神经重排的两阶段流水线,在金融QA基准上Recall@5达0.816、MRR@3达0.605,显著优于单阶段方法。值得注意:BM25在金融文档(数值精确查询)上仍优于顶级密集检索,打破"语义搜索全面优于关键词"的惯常假设。

查询改写(Query Rewriting)在长文档场景仍是痛点——HyDE和多查询展开对精确数值查询收益有限,但上下文检索(Contextual Retrieval)有稳定提升。


高价值候选

1. arXiv 2604.01733 — Benchmarking Retrieval Strategies for Text-and-Table Documents

  • URL: https://arxiv.org/html/2604.01733v1
  • 亮点: 系统评测10种检索策略(sparse/dense/hybrid/cross-encoder/查询扩展/自适应);金融QA基准2.3万查询;发现BM25在表格+文本混合文档上强于dense;hybrid+reranking两阶段最优;HyDE对数值查询帮助有限
  • 标签: #基准测试 #金融文档 #BM25 #hybrid #reranking

2. Aishwarya Srinivasan (Substack) — All You Need to Know About RAG (2026)

  • URL: https://aishwaryasrinivasan.substack.com/p/all-you-need-to-know-about-rag-in
  • 亮点: Parent-child chunking策略;RRF融合;小chunk精确检索+大chunk上下文生成组合;超越vibe-check走向高精度IR
  • 标签: #chunking #RRF #实战总结

3. Dave Ebbelaar — Hybrid Retrieval (YouTube + GitHub)

  • URL: https://github.com/daveebbelaar/ai-cookbook/tree/main/knowledge/hybrid-retrieval
  • 亮点: 从零构建BM25索引→密集embedding→RRF融合→Cohere reranker完整流水线;BEIR FinanceQA基准;NDCG@10评测对比
  • 标签: #工程实践 #BM25 #reranker #完整代码

4. Atlan — 12 Advanced RAG Techniques [2026]

  • URL: https://atlan.com/know/advanced-rag-techniques
  • 亮点: 12种高级RAG技术综述(Self-RAG/RAPTOR/CRAG/GraphRAG/Contextual Retrieval等);复杂度评级;决策框架;Naive RAG仅44%准确率,优化后可达63%+
  • 标签: #综述 #GraphRAG #Self-RAG #CRAG

一般候选

5. Future AGI — RAG 2026 Architecture Guide

  • URL: https://futureagi.com/blog/understanding-rag-llm-a-powerful-approach-for-ai-models
  • 亮点: 六组件流水线(chunker→embedder→vector store→retriever→reranker→generator)+ evaluator层;2026年架构全景
  • 标签: #架构 #2026

6. Superlinked — Optimizing RAG with Hybrid Search & Reranking

  • URL: https://superlinked.com/blog/optimizing-rag-with-hybrid-search-reranking
  • 亮点: keyword+semantic各自局限;"river bank" vs "Bank of America"经典案例;hybrid弥补向量检索精确词匹配短板
  • 标签: #hybrid #工程直觉

说明

  • 上游语义搜索超时(TimeoutError),候选完全基于本次 Tavily 搜索补充。
  • 本次 Substack 使用 1 条(Aishwarya Srinivasan);CSDN 未使用
  • 输出 JSON 路径:/shared/research-kb/inbox/tom/_candidates/2026-06-23-rag-retrieval-reranking-candidates.json