研究简报 · 2026-06-21 上午 · Jay

主题

GitHub Trending · Hugging Face · Substack · LLM Agent/RAG/Inference 工程动态

1. awesome-ai-agents-2026 ⭐ 1.1k

分类： AI Agent 资源列表 | 300+ 资源 | 20+ 分类 | 月更 核心内容： - 编码 Agent（Claude Code、OpenAI Codex、Devin） - 多 Agent 编排（LangGraph、CrewAI、AutoGen） - 协议与标准（MCP 生态） - 可观测性与评估（LangSmith、Galileo） - 本地/自托管 AI（Ollama、LocalAI） 标签： #AI-Agent #资源列表 #MCP #可观测性 #自托管 可信度： ★★★★☆ 后续行动： 可作为 Agent 工程知识库的分类索引参考

2. Dify — 低代码 AI 应用平台

来源： ByteByteGo Substack（2026-03） 核心价值： 可视化工作流、RAG 管道管理、多模型支持（OpenAI/Anthropic/开源 LLM）、本地+云部署 标签： #低代码 #RAG #工作流编排 #生产就绪 可信度： ★★★★☆ 后续行动： 补充到 AI 应用平台选型参考

3. LangChain/LangChain ⭐ 116k+（长期主导）

新增： DeepAgents 项目进入更复杂 Agent 领域 标签： #Agent框架 #RAG #多Agent 后续行动： 持续跟踪，不重复收录

二、Hugging Face 趋势（2026-06 中旬）

论文/模型	机构	方向
Microsoft 新模型发布	Microsoft	LLM
InternLM3	上海 AI Lab	多模态/长上下文
JD.com 开源项目	JD.com	电商 AI
Z.ai 系列	Z.ai	Agent

HF Blog 高价值文章

1. KV Caching Explained: Optimizing Transformer Inference Efficiency

作者： not-lain | 2025-01 | 351 赞 摘要： KV Cache 机制完整解析——Transformer 推理效率优化的核心所在 评价： 经典教程级内容，适合作为知识库推理工程入门参考 标签： #KV-Cache #推理优化 #教程 可信度： ★★★★★ 后续行动： 建议纳入 Inference 工程主题页

2. Intel XPU Kernel Skill: LLM-driven Triton kernel optimization

摘要： Intel XPU 架构上的 Triton 内核优化，HF Kernel Hub 集成 标签： #Triton #内核优化 #Intel #推理 可信度： ★★★★☆ 后续行动： 归档

3. NVIDIA Cosmos 3: Physical AI Open Omni-model

标签： #物理AI #世界模型 #NVIDIA 可信度： ★★★★☆ 后续行动： 归档，Physical AI 方向关注

4. olmo-eval: AI2 评估工作台

机构： Allen AI 标签： #评估 #LLM开发 #AI2 可信度： ★★★★☆ 后续行动： 归档

5. Introducing Serge: GitHub-Native AI Code Review

标签： #代码审查 #AI-Agent #GitHub集成 可信度： ★★★☆☆（新产品，持续跟踪） 后续行动： 归档

HF Daily Papers（LLM/RAG/Agent）

1. RAG-Anything: All-in-One RAG Framework

摘要： 多模态统一 RAG 框架，支持全模态知识检索 标签： #多模态RAG #RAG框架 可信度： ★★★★☆ 后续行动： 归档

2. RAG Foundry: Enhancing LLMs for RAG

摘要： 训练和评估 RAG 场景下 LLMs 的开源框架 标签： #RAG训练 #RAG评估 #LLM微调 可信度： ★★★★☆ 后续行动： 可补充 RAG 评估维度

三、Substack 高价值内容

1. The AI Agents Stack: LLM to Production (2026 Edition)

专栏： The AI Engineer 发布时间： 2026-03 核心观点： - 2026 年 Agent 技术栈已演化为 6 层结构（2024 年 Letta 原始图只有 4 层） - 新增层包括：Memory/状态管理层、Tool/Action 层、Orchestration 层 - 核心洞见："Agent stack is not the LLM stack" - 三个月内从 demo 到生产：14 节点状态图、Redis 自定义检查pointer、周级工具调用失败重试 标签： #Agent工程 #技术栈 #生产系统 #状态管理 可信度： ★★★★★ 后续行动： 精读——适合作为 Agent 工程主题页框架参考 核验需求： 需对照 LangChain/LangGraph 官方文档核实 2026 各层具体定义

2. OWASP Top 10 Agents & AI Vulnerabilities (2026 Cheat Sheet)

作者： Alex Ewerlof 核心内容： - OWASP Top 10 LLM（LLM01-LLM10） - OWASP Top 10 Agents（ASI01-ASI10） - 语义防火墙（Semantic Firewall）缓解方案 - 最小权限原则在 Agent 工具访问中的应用 标签： #AI安全 #OWASP #Agent安全 #对抗性AI 可信度： ★★★★★ 后续行动： 精读——纳入 Agent 安全主题页

3. Deep|LLM 2026: From the Illusion of Model Development

专栏： FUNDA AI 核心观点： - 2026 是 Agent 元年——模型以 Agent 形态进入真实生产系统 - 多模态 Agent、长时间跨度任务执行、可复用输出的新范式 - 基础设施（计算/网络/存储）面临重新评级需求 - Mid-training + RL 的第三次拐点 标签： #AGI #Agent元年 #基础设施 #Mid-Training 可信度： ★★★★☆ 后续行动： 归档，作为行业趋势参考

核心内容： - Dify：生产就绪的 Agent 工作流开发平台 - LangChain：多 Agent 系统、工具调用 Agent、RAG - DeepSeek-V3：Meta 开源 LLM 推理进展 - OpenAI Codex：编码 Agent 标签： #GitHub #AI-Agent #RAG #编码Agent 可信度： ★★★★★ 后续行动： 与已有 GitHub Trending 草稿去重合并

四、工程主题深度条目

推理系统

MLSys 2026 Oral: Optimizing Deployment Configurations for LLM Inference

机构： Meta（Llama 家族推理团队） 核心贡献： - 数百万部署配置的系统性分析方法 - 硬件（H100/H200/MI300X）× 并行策略（张量/流水线/专家/上下文/数据并行）× 运行时选择（连续批处理 vs. Prefill-Decode 分解） - SLO 约束下的吞吐量最大化 - MoE 架构系统级影响分析 生产经验洞见： - 并行策略的相位特异性（phase-specific nature） - 硬件异构性利用机会 - 平台扩展行为 标签： #LLM推理 #部署优化 #并行策略 #MoE #Meta生产经验 可信度： ★★★★★（一线生产数据） 后续行动： 精读——纳入推理工程主题页

arXiv: Position: LLM Serving Needs Mathematical Optimization, Not Just Heuristics

核心论点： - 当前 vLLM/SGLang 算法核心未跳出经典分布式计算 - 请求路由：join-shortest-queue 或 round-robin（通用） - 调度：FIFO 默认（忽略 LLM 特性） - KV Cache 驱逐：LRU（忽略动态增长特性） - 呼吁： 建立捕获 LLM 推理结构特征的数学模型，设计有可证明性能保证的算法 标签： #LLM服务 #算法优化 #理论 #调度 可信度： ★★★★☆ 后续行动： 归档，作为推理优化研究方向参考

arXiv: Online Scheduling for LLM Inference with KV Cache Constraints

核心贡献： - LLM 推理 KV Cache 约束的在线调度算法 - Hindsight optimal benchmark（整数规划） - 证明任意到达过程下无确定算法可获常数竞争比 - 多项式时间在线调度算法设计 标签： #在线调度 #KV-Cache #算法 #理论 可信度： ★★★★☆ 后续行动： 归档

RAG 工程

10 RAG Shifts Redefining Production AI in 2026

作者： Ozgur Guler | Microsoft Azure 高价值观点： 1. Retrieval 装饰性问题： 去掉检索上下文后模型给出相同答案 → 检索栈是装饰性的 2. 结构化数据优先： 关系数据库/图存储可直接计算时，优先生成 SQL/Cypher 而非文本块检索 3. Agentic RAG 替代 Naive RAG 4. Context Caching 成熟改变 LLM 经济性 标签： #RAG #生产系统 #检索评估 #Microsoft 可信度： ★★★★★ 后续行动： 精读——纳入 RAG 工程实践主题页

Production-Ready RAG Architecture Patterns for 2026

核心观点： - 50+ 企业 RAG 部署经验总结 - "Production RAG is a retrieval problem first and an LLM problem second" - Demo 在第 3 周被真实用户/真实数据打碎 - 架构模式：Chunker → Embedder → Vector Store → Retriever → Reranker → Generator - 评估层 + Tracing 层是生产必备 标签： #RAG #生产架构 #企业部署 #检索 可信度： ★★★★☆ 后续行动： 归档

RAG LLM 2026: Architecture, Eval, Hybrid Search

更新时间： 2026-05-14 内容： 完整 RAG 架构解析，含 hybrid + reranker 栈、评估指标、FAGI 评估伴侣 标签： #RAG #架构 #评估 #混合搜索 可信度： ★★★★☆ 后续行动： 归档

Agent 工程

State of Agent Engineering — LangChain

核心数据（来自 LangChain 调查）： - 10k+ 员工组织最大挑战：幻觉和输出一致性 - 人类洞见持续注入模型更新的结构化自动化流程 - Annotation Queues 规模化局限 → 自动化评估必要性 标签： #Agent工程 #可观测性 #评估 #LangChain 可信度： ★★★★☆ 后续行动： 归档

Multi-Agentic RAG with Hugging Face Code Agents

核心： 消费级硬件运行的小模型也能驱动多 Agentic RAG 系统 标签： #多Agent #RAG #HF-Code-Agents #本地推理 可信度： ★★★☆☆ 后续行动： 归档

Vector DB 趋势

What's Changing in Vector Databases in 2026

核心观点： - 市场从"Pinecone 专用"转向"用 PostgreSQL 构建" - 所有主流云厂商和传统数据库（AWS/Azure/MongoDB/PostgreSQL）已原生支持向量搜索 - 专用向量数据库压缩到：十亿级向量 + <50ms 延迟需求场景 - 边缘/本地部署支持是当前缺口 决策框架： 云 vs. 自建 vs. 边缘场景划分 标签： #向量数据库 #PostgreSQL #pgvector #边缘部署 #市场趋势 可信度： ★★★★☆ 后续行动： 纳入 Vector DB 选型主题页

五、CSDN 高价值内容

2026 AI开发实战：RAG+AI Agent企业级方案深度解析（附完整可运行代码）

来源： CSDN OPC 开发者社区 内容质量： 含完整可运行 Python 代码，LangChain + FAISS + BGE 嵌入 + DuckDuckGo 搜索 适合： 工程实践参考 标签： #RAG #AI-Agent #LangChain #代码实战 可信度： ★★★★☆ 后续行动： 归档，作为代码示例参考（已有类似内容可去重）

六、分类标签总览

#GitHub-Trending #HuggingFace #Substack #LLM-Agent #RAG #Inference #多Agent #MCP #OWASP #向量数据库 #PostgreSQL #pgvector #MoE #并行策略 #KV-Cache #安全 #评估 #LangChain #Dify #生产部署

七、建议写入路径

主要草稿路径： /shared/research-kb/inbox/jay/2026-06-21-morning-github-hf-substack-agentic-rag-inference.md

关联主题页建议（供后续同步任务参考）： 1. Agent 工程主题页 — 更新 Stack 6 层框架（来自 The AI Engineer Substack） 2. Agent 安全主题页 — 新增 OWASP Top 10 Agents（ASI01-ASI10） 3. 推理工程主题页 — KV Cache 教程 + MLSys Meta 生产经验 + arXiv 数学优化 Position Paper 4. RAG 工程主题页 — 检索装饰性检测方法 + Hybrid+Reranker 栈 + 生产架构模式 5. Vector DB 选型页 — 2026 市场趋势（PostgreSQL 原生化 + 边缘部署缺口）

八、精读/审稿/主题页更新建议

优先级	行动	来源
🔴 精读	Agent Stack 6 层框架（The AI Engineer）	Substack
🔴 精读	OWASP Top 10 Agents 2026 Cheat Sheet	Substack
🔴 精读	Meta MLSys Oral — Llama 推理部署优化	arXiv/MLSys
🟡 审稿	KV Caching Explained（HF Blog）	HF
🟡 审稿	RAG Shifts — Production AI 2026	Medium/Azure
🟡 审稿	Vector DB 2026 市场趋势	DEV.to
🟢 归档	Dify、RAG Foundry、RAG-Anything、Serge、Intel XPU Triton	各自来源

本简报由 Jay 实例生成 · 2026-06-21 09:35 (UTC+8) · 仅作为研究线索，不构成任何技术建议