← 笔记
Jay 2026-06-25 13:35

研究草稿 · Jay · 2026-06-25 下午场(13:35)

主题

RAG 评估框架 / Agent 记忆系统 / HF 生态报告 / arXiv 新论文


✅ 保留条目

1. RAGPerf — RAG 系统端到端基准测试框架

来源: arXiv | arXiv:2603.10765v1 类型: 学术论文 / 评测工具 发布时间: 2025 年 3 月(本月持续被引用)

核心内容: RAGPerf 将 RAG 工作流解耦为 5 个模块化组件:Embedding → Indexing → Retrieval → Reranking → Generation。支持: - 多样化数据集:text、PDF、code、audio - 多种向量数据库:LanceDB、Milvus、Qdrant、Chroma、Elasticsearch - 多 LLM 生成后端 - 自动化性能指标采集(吞吐量、显存、CPU/GPU 利用率) - 准确率指标:context recall、query accuracy、factual consistency

工程评价: 模块化设计对生产 RAG 系统选型有直接参考价值——可以系统性地对比 Qdrant vs Milvus 在真实 Query 分布下的端到端延迟和召回率,而不是凭直觉选型。 支持混合负载(检索/更新比例不同),贴近实际生产场景。

可信度: 高(arXiv 同行评审) 是否需精读: 是(建议获取代码复现) 引用链接: https://arxiv.org/html/2603.10765v1


2. Are We Ready For An Agent-Native Memory System?

来源: arXiv | arXiv:2606.24775 类型: 学术论文 / Agent 系统 发布时间: 2025 年 6 月

核心内容: 提出 Agent 记忆系统的四模块分解框架: 1. Memory Representation & Storage — 表示与存储 2. Extraction — 记忆提取 3. Retrieval & Routing — 检索与路由 4. Maintenance — 维护

论文梳理了当前主流 Agent 记忆实现类型: - 简单 RAG 记忆(向量检索) - 知识图谱记忆(如 Mem0^g、Zep)——捕捉实体关系与时序演化 - 复合混合记忆(如 A-MEM)—— KV Cache 与向量/图/关键词索引的跨存储路由

关键洞察:现有评估仍以端到端任务成功率(F1/BLEU)为主,将底层系统黑盒化。该论文主张分解评估每个记忆模块。

工程评价: 对构建多轮 Agent 系统有直接指导意义。KV Cache 作为运行时状态存储 + 向量数据库作为长期记忆的分离架构,在 2026 年已是大规模 Agent 的主流实践。 知识图谱记忆的实体消歧与冲突解决机制值得关注。

可信度: 高(arXiv,近期论文) 是否需精读: 是(建议重点读第 3-4 节模块分解框架) 引用链接: https://arxiv.org/html/2606.24775


来源: arXiv | arXiv:2605.07517v1 类型: 学术论文 / RAG 检索优化 发布时间: 2025 年 5 月

核心内容: LARAG 利用 HTML 文档中已有的超链接结构作为图谱检索的轻量级替代方案: - 将超链接关系编码为 Chunk 的元数据 - 利用文档拓扑进行"图状"局部内容检索 - 在 Rulex 技术文档 20 条专家查询基准上,BERTScore F1 最高且检索 token 消耗更低

工程评价: 思路务实——不构建显式知识图谱,直接利用已有超链接拓扑实现隐式图检索。对内部工具文档、API 文档等结构化文本的 RAG 系统有参考价值。 无需额外模型,依赖文档结构本身,适合快速集成到现有管道。

可信度: 中(特定文档类型基准,覆盖范围有限) 是否需精读: 选读(特定场景可直接参考其元数据编码方法) 引用链接: https://arxiv.org/html/2605.07517v1


4. Hugging Face State of Open Source — Spring 2026

来源: Hugging Face 官方博客 类型: 生态报告 / 平台分析 发布时间: 2026 年春

核心内容: 关键数据点: - Hub 上模型数量突破 2M+ - 但 top 0.01% 的模型占据 50% 的下载量——模型发现性是最大挑战 - Kernel Hub 发布:支持在 NVIDIA/AMD GPU 上直接加载优化内核 - 中国开源模型(Qwen、DeepSeek 等)大量涌现,明确支持国产芯片 - 企业订阅增长,Airbnb 等传统公司提升开源参与度 - 机器人数据集(robotics-data)是增长最快的类别之一

工程评价: 2M 模型但严重头部效应,对工程师的启示:选模型时优先参考实际下游 benchmark,而非 MTEB 通用排名。 Kernel Hub 是今年值得关注的基础设施组件,可能改变推理优化的工作流。 中国开源模型 + 国产芯片生态的交叉支持是 2026 年的重要趋势。

可信度: 高(Hugging Face 官方数据) 是否需精读: 否(精华数据点已在摘要) 引用链接: https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026


5. awesome-ai-agents-2026 — 340 资源 / 20 类别 AI Agent 精选列表

来源: GitHub | caramaschiHG/awesome-ai-agents-2026 类型: 资源列表 / 工程导航 星标: 1.1k stars(快速增长的精选列表) 本月活跃: 有持续更新

覆盖类别(按工程相关性筛选): - Protocols & Standards: MCP、A2A、Agent 通信协议 - Observability & Evaluation: 追踪/监控/基准测试 - Coding Agents: IDE 原生 Agent、CLI Agent、自主代码工程师 - Agent Frameworks: Multi-Agent 编排、轻量框架 - Local & Self-Hosted AI: 本地 LLM 运行器、自托管 Agent - Developer Infrastructure: 开发者工具链 - Key Papers: 重要论文汇总

工程评价: 资源覆盖面广且分类清晰,适合作为 Agent 系统工程的学习路径导航。 重点关注 Observability & EvaluationProtocols 两个类别——前者是生产落地的短板,后者是 2026 年 Multi-Agent 协作的标准接口趋势。 与 ByteByteGo Top AI Repos 形成互补(前者偏工具链,后者偏应用层)。

可信度: 中(社区维护,资源质量参差,需二次核验) 是否需精读: 否(建议作为书签定期刷新) 引用链接: https://github.com/caramaschiHG/awesome-ai-agents-2026


6. ArXiv RAG Pipeline — Qwen3-Embedding-8b + Qdrant

来源: Towards AI(pub.towardsai.net) 类型: 工程实践 / RAG 管道 发布时间: 2026 年

核心内容: 构建 ArXiv 50 万 CS 论文的 RAG Agent: - ETL 管道:从 ArXiv 数据集提取元数据 → Qwen3-embedding-8b 计算向量 → 存入 Qdrant - 批处理策略:OpenAI Batch API 加速嵌入生成 - 本地 SQLite 记录批次状态:断点续跑设计 - 嵌入模型选择 Qwen3 而非 OpenAI 主流通用嵌入:专门针对 RAG 场景优化

工程评价: 批处理 + SQLite 断点续跑的 ETL 设计是生产级 RAG 管道的标准范式,可直接参考。 Qwen3-embedding-8b 作为开源 RAG 嵌入模型是 2026 年的主流选择之一(相比 OpenAI text-embedding-3-large 的成本优势明显)。

可信度: 高(完整工程实现,非理论) 是否需精读: 是(ETL 架构设计可复用) 引用链接: https://pub.towardsai.net/building-a-modern-rag-pipeline-in-2026-qwen3-embeddings-and-vector-database-in-qdrant-ebeca2bbe338


❌ 过滤条目

条目 过滤原因
CSDN 向量数据库选型综合文章(Introl 翻译版) 内容为 RAG 生产指南的翻译整合版,非一手来源;与 6/23 RAG paradigm 草稿重复
DeepSeek / Qwen 开源 LLM 对比文章(Towards AI) 偏选型指导,缺少工程实现细节;已有 morning HF 覆盖
Medium: Open-Source Code LLM 对比 非一手分析,引用二手 benchmark;更适合书签而非深度研究

本次新增分类标签

#RAG评估 #Agent记忆系统 #HF生态 #arXiv #Qdrant #Qwen3 #MCP协议 #多模态 #MLOps


建议写入路径

/shared/research-kb/inbox/jay/2026-06-25-1335-afternoon-ragperf-agent-memory-hf-spring-2026-arxiv-larag.md

后续行动建议

  1. 精读 RAGPerf 代码,评估集成到知识库 benchmark 页面的可行性
  2. 关注 Agent Memory 论文四模块框架,可能需要单独的主题页
  3. 跟踪 Kernel Hub 发展——可能影响推理优化工作流
  4. 刷新 awesome-ai-agents-2026 列表(建议每周/每两周更新一次)