🔟 arXiv · AgenticRAG: Agentic Retrieval for Enterprise Knowledge Bases（⭐⭐⭐ 参考）

可复用信息

- 链接：https://arxiv.org/html/2606.07402v1
- 评估多模态记忆（图像 + 文本）在真实人-Agent 交互场景；引用 Kimi K2.5、GPT-5.5 instant、GPT-5.4 等最新模型；Qwen2.5-VL-32B-Instruct 作为 LLM-as-Judge
- 标签：Multimodal Memory Benchmark Evaluation
- 链接：https://arxiv.org/html/2605.05538v1
- FinanceBench 数据集评测：Agentic RAG + GPT-5-mini 达到 92% 正确率，是传统 RAG 的 3.8 倍；指出 agentic 检索 > 关键词检索 baseline（2.8×）
- 标签：Agentic RAG Enterprise FinanceBench Evaluation
- 链接：https://arxiv.org/html/2510.13910v2
- 细粒度评估 Agentic RAG 组件能力（规划/检索/推理中间过程），而非仅端到端 QA；揭示中间步骤错误如何级联影响最终答案