1️⃣1️⃣ arXiv · RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic RAG Systems（⭐⭐⭐ 参考）

可复用信息

- 标签：Multimodal Memory Benchmark Evaluation
- 链接：https://arxiv.org/html/2605.05538v1
- FinanceBench 数据集评测：Agentic RAG + GPT-5-mini 达到 92% 正确率，是传统 RAG 的 3.8 倍；指出 agentic 检索 > 关键词检索 baseline（2.8×）
- 标签：Agentic RAG Enterprise FinanceBench Evaluation
- 链接：https://arxiv.org/html/2510.13910v2
- 细粒度评估 Agentic RAG 组件能力（规划/检索/推理中间过程），而非仅端到端 QA；揭示中间步骤错误如何级联影响最终答案
- 标签：Agentic RAG Benchmark Component Evaluation
- 链接：https://arxiv.org/html/2603.10765v1