研究草稿 · Jay · 2026-06-25 下午场（13:35）

主题

RAG 评估框架 / Agent 记忆系统 / HF 生态报告 / arXiv 新论文

✅ 保留条目

1. RAGPerf — RAG 系统端到端基准测试框架

来源: arXiv | arXiv:2603.10765v1 类型: 学术论文 / 评测工具 发布时间: 2025 年 3 月（本月持续被引用）

核心内容: RAGPerf 将 RAG 工作流解耦为 5 个模块化组件：Embedding → Indexing → Retrieval → Reranking → Generation。支持： - 多样化数据集：text、PDF、code、audio - 多种向量数据库：LanceDB、Milvus、Qdrant、Chroma、Elasticsearch - 多 LLM 生成后端 - 自动化性能指标采集（吞吐量、显存、CPU/GPU 利用率） - 准确率指标：context recall、query accuracy、factual consistency

工程评价: 模块化设计对生产 RAG 系统选型有直接参考价值——可以系统性地对比 Qdrant vs Milvus 在真实 Query 分布下的端到端延迟和召回率，而不是凭直觉选型。支持混合负载（检索/更新比例不同），贴近实际生产场景。

可信度: 高（arXiv 同行评审） 是否需精读: 是（建议获取代码复现） 引用链接: https://arxiv.org/html/2603.10765v1

2. Are We Ready For An Agent-Native Memory System?

来源: arXiv | arXiv:2606.24775 类型: 学术论文 / Agent 系统 发布时间: 2025 年 6 月

核心内容: 提出 Agent 记忆系统的四模块分解框架： 1. Memory Representation & Storage — 表示与存储 2. Extraction — 记忆提取 3. Retrieval & Routing — 检索与路由 4. Maintenance — 维护

论文梳理了当前主流 Agent 记忆实现类型： - 简单 RAG 记忆（向量检索） - 知识图谱记忆（如 Mem0^g、Zep）——捕捉实体关系与时序演化 - 复合混合记忆（如 A-MEM）—— KV Cache 与向量/图/关键词索引的跨存储路由

关键洞察：现有评估仍以端到端任务成功率（F1/BLEU）为主，将底层系统黑盒化。该论文主张分解评估每个记忆模块。

工程评价: 对构建多轮 Agent 系统有直接指导意义。KV Cache 作为运行时状态存储 + 向量数据库作为长期记忆的分离架构，在 2026 年已是大规模 Agent 的主流实践。知识图谱记忆的实体消歧与冲突解决机制值得关注。

可信度: 高（arXiv，近期论文） 是否需精读: 是（建议重点读第 3-4 节模块分解框架） 引用链接: https://arxiv.org/html/2606.24775

3. LARAG — Link-Aware RAG for Hyperlinked Technical Documentation

来源: arXiv | arXiv:2605.07517v1 类型: 学术论文 / RAG 检索优化 发布时间: 2025 年 5 月

核心内容: LARAG 利用 HTML 文档中已有的超链接结构作为图谱检索的轻量级替代方案： - 将超链接关系编码为 Chunk 的元数据 - 利用文档拓扑进行"图状"局部内容检索 - 在 Rulex 技术文档 20 条专家查询基准上，BERTScore F1 最高且检索 token 消耗更低

工程评价: 思路务实——不构建显式知识图谱，直接利用已有超链接拓扑实现隐式图检索。对内部工具文档、API 文档等结构化文本的 RAG 系统有参考价值。无需额外模型，依赖文档结构本身，适合快速集成到现有管道。

可信度: 中（特定文档类型基准，覆盖范围有限） 是否需精读: 选读（特定场景可直接参考其元数据编码方法） 引用链接: https://arxiv.org/html/2605.07517v1

4. Hugging Face State of Open Source — Spring 2026

来源: Hugging Face 官方博客类型: 生态报告 / 平台分析 发布时间: 2026 年春

核心内容: 关键数据点： - Hub 上模型数量突破 2M+ - 但 top 0.01% 的模型占据 50% 的下载量——模型发现性是最大挑战 - Kernel Hub 发布：支持在 NVIDIA/AMD GPU 上直接加载优化内核 - 中国开源模型（Qwen、DeepSeek 等）大量涌现，明确支持国产芯片 - 企业订阅增长，Airbnb 等传统公司提升开源参与度 - 机器人数据集（robotics-data）是增长最快的类别之一

工程评价: 2M 模型但严重头部效应，对工程师的启示：选模型时优先参考实际下游 benchmark，而非 MTEB 通用排名。 Kernel Hub 是今年值得关注的基础设施组件，可能改变推理优化的工作流。中国开源模型 + 国产芯片生态的交叉支持是 2026 年的重要趋势。

可信度: 高（Hugging Face 官方数据） 是否需精读: 否（精华数据点已在摘要） 引用链接: https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

5. awesome-ai-agents-2026 — 340 资源 / 20 类别 AI Agent 精选列表

来源: GitHub | caramaschiHG/awesome-ai-agents-2026 类型: 资源列表 / 工程导航星标: 1.1k stars（快速增长的精选列表） 本月活跃: 有持续更新

覆盖类别（按工程相关性筛选）: - Protocols & Standards: MCP、A2A、Agent 通信协议 - Observability & Evaluation: 追踪/监控/基准测试 - Coding Agents: IDE 原生 Agent、CLI Agent、自主代码工程师 - Agent Frameworks: Multi-Agent 编排、轻量框架 - Local & Self-Hosted AI: 本地 LLM 运行器、自托管 Agent - Developer Infrastructure: 开发者工具链 - Key Papers: 重要论文汇总

工程评价: 资源覆盖面广且分类清晰，适合作为 Agent 系统工程的学习路径导航。重点关注 Observability & Evaluation 和 Protocols 两个类别——前者是生产落地的短板，后者是 2026 年 Multi-Agent 协作的标准接口趋势。与 ByteByteGo Top AI Repos 形成互补（前者偏工具链，后者偏应用层）。

可信度: 中（社区维护，资源质量参差，需二次核验） 是否需精读: 否（建议作为书签定期刷新） 引用链接: https://github.com/caramaschiHG/awesome-ai-agents-2026

6. ArXiv RAG Pipeline — Qwen3-Embedding-8b + Qdrant

来源: Towards AI（pub.towardsai.net）类型: 工程实践 / RAG 管道 发布时间: 2026 年

核心内容: 构建 ArXiv 50 万 CS 论文的 RAG Agent： - ETL 管道：从 ArXiv 数据集提取元数据 → Qwen3-embedding-8b 计算向量 → 存入 Qdrant - 批处理策略：OpenAI Batch API 加速嵌入生成 - 本地 SQLite 记录批次状态：断点续跑设计 - 嵌入模型选择 Qwen3 而非 OpenAI 主流通用嵌入：专门针对 RAG 场景优化

工程评价: 批处理 + SQLite 断点续跑的 ETL 设计是生产级 RAG 管道的标准范式，可直接参考。 Qwen3-embedding-8b 作为开源 RAG 嵌入模型是 2026 年的主流选择之一（相比 OpenAI text-embedding-3-large 的成本优势明显）。

可信度: 高（完整工程实现，非理论） 是否需精读: 是（ETL 架构设计可复用） 引用链接: https://pub.towardsai.net/building-a-modern-rag-pipeline-in-2026-qwen3-embeddings-and-vector-database-in-qdrant-ebeca2bbe338

❌ 过滤条目

条目	过滤原因
CSDN 向量数据库选型综合文章（Introl 翻译版）	内容为 RAG 生产指南的翻译整合版，非一手来源；与 6/23 RAG paradigm 草稿重复
DeepSeek / Qwen 开源 LLM 对比文章（Towards AI）	偏选型指导，缺少工程实现细节；已有 morning HF 覆盖
Medium: Open-Source Code LLM 对比	非一手分析，引用二手 benchmark；更适合书签而非深度研究

本次新增分类标签

#RAG评估 #Agent记忆系统 #HF生态 #arXiv #Qdrant #Qwen3 #MCP协议 #多模态 #MLOps

建议写入路径

/shared/research-kb/inbox/jay/2026-06-25-1335-afternoon-ragperf-agent-memory-hf-spring-2026-arxiv-larag.md

后续行动建议

精读 RAGPerf 代码，评估集成到知识库 benchmark 页面的可行性
关注 Agent Memory 论文四模块框架，可能需要单独的主题页
跟踪 Kernel Hub 发展——可能影响推理优化工作流
刷新 awesome-ai-agents-2026 列表（建议每周/每两周更新一次）