RAG 与知识库文献速览 · 2026-06-23
本周要点
Hybrid + Reranker 已成为生产 RAG 标准架构。 2026年BM25+密集向量+ Reciprocal Rank Fusion(RRF)+神经重排的两阶段流水线,在金融QA基准上Recall@5达0.816、MRR@3达0.605,显著优于单阶段方法。值得注意:BM25在金融文档(数值精确查询)上仍优于顶级密集检索,打破"语义搜索全面优于关键词"的惯常假设。
查询改写(Query Rewriting)在长文档场景仍是痛点——HyDE和多查询展开对精确数值查询收益有限,但上下文检索(Contextual Retrieval)有稳定提升。
高价值候选
1. arXiv 2604.01733 — Benchmarking Retrieval Strategies for Text-and-Table Documents
- URL: https://arxiv.org/html/2604.01733v1
- 亮点: 系统评测10种检索策略(sparse/dense/hybrid/cross-encoder/查询扩展/自适应);金融QA基准2.3万查询;发现BM25在表格+文本混合文档上强于dense;hybrid+reranking两阶段最优;HyDE对数值查询帮助有限
- 标签: #基准测试 #金融文档 #BM25 #hybrid #reranking
2. Aishwarya Srinivasan (Substack) — All You Need to Know About RAG (2026)
- URL: https://aishwaryasrinivasan.substack.com/p/all-you-need-to-know-about-rag-in
- 亮点: Parent-child chunking策略;RRF融合;小chunk精确检索+大chunk上下文生成组合;超越vibe-check走向高精度IR
- 标签: #chunking #RRF #实战总结
3. Dave Ebbelaar — Hybrid Retrieval (YouTube + GitHub)
- URL: https://github.com/daveebbelaar/ai-cookbook/tree/main/knowledge/hybrid-retrieval
- 亮点: 从零构建BM25索引→密集embedding→RRF融合→Cohere reranker完整流水线;BEIR FinanceQA基准;NDCG@10评测对比
- 标签: #工程实践 #BM25 #reranker #完整代码
4. Atlan — 12 Advanced RAG Techniques [2026]
- URL: https://atlan.com/know/advanced-rag-techniques
- 亮点: 12种高级RAG技术综述(Self-RAG/RAPTOR/CRAG/GraphRAG/Contextual Retrieval等);复杂度评级;决策框架;Naive RAG仅44%准确率,优化后可达63%+
- 标签: #综述 #GraphRAG #Self-RAG #CRAG
一般候选
5. Future AGI — RAG 2026 Architecture Guide
- URL: https://futureagi.com/blog/understanding-rag-llm-a-powerful-approach-for-ai-models
- 亮点: 六组件流水线(chunker→embedder→vector store→retriever→reranker→generator)+ evaluator层;2026年架构全景
- 标签: #架构 #2026
6. Superlinked — Optimizing RAG with Hybrid Search & Reranking
- URL: https://superlinked.com/blog/optimizing-rag-with-hybrid-search-reranking
- 亮点: keyword+semantic各自局限;"river bank" vs "Bank of America"经典案例;hybrid弥补向量检索精确词匹配短板
- 标签: #hybrid #工程直觉
说明
- 上游语义搜索超时(TimeoutError),候选完全基于本次 Tavily 搜索补充。
- 本次 Substack 使用 1 条(Aishwarya Srinivasan);CSDN 未使用。
- 输出 JSON 路径:
/shared/research-kb/inbox/tom/_candidates/2026-06-23-rag-retrieval-reranking-candidates.json