← 笔记
Jay 2026-06-21

研究简报 · 2026-06-21 上午 · Jay

主题

GitHub Trending · Hugging Face · Substack · LLM Agent/RAG/Inference 工程动态


1. awesome-ai-agents-2026 ⭐ 1.1k

分类: AI Agent 资源列表 | 300+ 资源 | 20+ 分类 | 月更 核心内容: - 编码 Agent(Claude Code、OpenAI Codex、Devin) - 多 Agent 编排(LangGraph、CrewAI、AutoGen) - 协议与标准(MCP 生态) - 可观测性与评估(LangSmith、Galileo) - 本地/自托管 AI(Ollama、LocalAI) 标签: #AI-Agent #资源列表 #MCP #可观测性 #自托管 可信度: ★★★★☆ 后续行动: 可作为 Agent 工程知识库的分类索引参考

2. Dify — 低代码 AI 应用平台

来源: ByteByteGo Substack(2026-03) 核心价值: 可视化工作流、RAG 管道管理、多模型支持(OpenAI/Anthropic/开源 LLM)、本地+云部署 标签: #低代码 #RAG #工作流编排 #生产就绪 可信度: ★★★★☆ 后续行动: 补充到 AI 应用平台选型参考

3. LangChain/LangChain ⭐ 116k+(长期主导)

新增: DeepAgents 项目进入更复杂 Agent 领域 标签: #Agent框架 #RAG #多Agent 后续行动: 持续跟踪,不重复收录


二、Hugging Face 趋势(2026-06 中旬)

论文/模型 机构 方向
Microsoft 新模型发布 Microsoft LLM
InternLM3 上海 AI Lab 多模态/长上下文
JD.com 开源项目 JD.com 电商 AI
Z.ai 系列 Z.ai Agent

HF Blog 高价值文章

1. KV Caching Explained: Optimizing Transformer Inference Efficiency

作者: not-lain | 2025-01 | 351 赞 摘要: KV Cache 机制完整解析——Transformer 推理效率优化的核心所在 评价: 经典教程级内容,适合作为知识库推理工程入门参考 标签: #KV-Cache #推理优化 #教程 可信度: ★★★★★ 后续行动: 建议纳入 Inference 工程主题页

2. Intel XPU Kernel Skill: LLM-driven Triton kernel optimization

摘要: Intel XPU 架构上的 Triton 内核优化,HF Kernel Hub 集成 标签: #Triton #内核优化 #Intel #推理 可信度: ★★★★☆ 后续行动: 归档

3. NVIDIA Cosmos 3: Physical AI Open Omni-model

标签: #物理AI #世界模型 #NVIDIA 可信度: ★★★★☆ 后续行动: 归档,Physical AI 方向关注

4. olmo-eval: AI2 评估工作台

机构: Allen AI 标签: #评估 #LLM开发 #AI2 可信度: ★★★★☆ 后续行动: 归档

5. Introducing Serge: GitHub-Native AI Code Review

标签: #代码审查 #AI-Agent #GitHub集成 可信度: ★★★☆☆(新产品,持续跟踪) 后续行动: 归档

HF Daily Papers(LLM/RAG/Agent)

1. RAG-Anything: All-in-One RAG Framework

摘要: 多模态统一 RAG 框架,支持全模态知识检索 标签: #多模态RAG #RAG框架 可信度: ★★★★☆ 后续行动: 归档

2. RAG Foundry: Enhancing LLMs for RAG

摘要: 训练和评估 RAG 场景下 LLMs 的开源框架 标签: #RAG训练 #RAG评估 #LLM微调 可信度: ★★★★☆ 后续行动: 可补充 RAG 评估维度


三、Substack 高价值内容

1. The AI Agents Stack: LLM to Production (2026 Edition)

专栏: The AI Engineer 发布时间: 2026-03 核心观点: - 2026 年 Agent 技术栈已演化为 6 层结构(2024 年 Letta 原始图只有 4 层) - 新增层包括:Memory/状态管理层、Tool/Action 层、Orchestration 层 - 核心洞见:"Agent stack is not the LLM stack" - 三个月内从 demo 到生产:14 节点状态图、Redis 自定义检查pointer、周级工具调用失败重试 标签: #Agent工程 #技术栈 #生产系统 #状态管理 可信度: ★★★★★ 后续行动: 精读——适合作为 Agent 工程主题页框架参考 核验需求: 需对照 LangChain/LangGraph 官方文档核实 2026 各层具体定义

2. OWASP Top 10 Agents & AI Vulnerabilities (2026 Cheat Sheet)

作者: Alex Ewerlof 核心内容: - OWASP Top 10 LLM(LLM01-LLM10) - OWASP Top 10 Agents(ASI01-ASI10) - 语义防火墙(Semantic Firewall)缓解方案 - 最小权限原则在 Agent 工具访问中的应用 标签: #AI安全 #OWASP #Agent安全 #对抗性AI 可信度: ★★★★★ 后续行动: 精读——纳入 Agent 安全主题页

3. Deep|LLM 2026: From the Illusion of Model Development

专栏: FUNDA AI 核心观点: - 2026 是 Agent 元年——模型以 Agent 形态进入真实生产系统 - 多模态 Agent、长时间跨度任务执行、可复用输出的新范式 - 基础设施(计算/网络/存储)面临重新评级需求 - Mid-training + RL 的第三次拐点 标签: #AGI #Agent元年 #基础设施 #Mid-Training 可信度: ★★★★☆ 后续行动: 归档,作为行业趋势参考

4. ByteByteGo Newsletter — Top AI GitHub Repositories in 2026

核心内容: - Dify:生产就绪的 Agent 工作流开发平台 - LangChain:多 Agent 系统、工具调用 Agent、RAG - DeepSeek-V3:Meta 开源 LLM 推理进展 - OpenAI Codex:编码 Agent 标签: #GitHub #AI-Agent #RAG #编码Agent 可信度: ★★★★★ 后续行动: 与已有 GitHub Trending 草稿去重合并


四、工程主题深度条目

推理系统

MLSys 2026 Oral: Optimizing Deployment Configurations for LLM Inference

机构: Meta(Llama 家族推理团队) 核心贡献: - 数百万部署配置的系统性分析方法 - 硬件(H100/H200/MI300X)× 并行策略(张量/流水线/专家/上下文/数据并行)× 运行时选择(连续批处理 vs. Prefill-Decode 分解) - SLO 约束下的吞吐量最大化 - MoE 架构系统级影响分析 生产经验洞见: - 并行策略的相位特异性(phase-specific nature) - 硬件异构性利用机会 - 平台扩展行为 标签: #LLM推理 #部署优化 #并行策略 #MoE #Meta生产经验 可信度: ★★★★★(一线生产数据) 后续行动: 精读——纳入推理工程主题页

arXiv: Position: LLM Serving Needs Mathematical Optimization, Not Just Heuristics

核心论点: - 当前 vLLM/SGLang 算法核心未跳出经典分布式计算 - 请求路由:join-shortest-queue 或 round-robin(通用) - 调度:FIFO 默认(忽略 LLM 特性) - KV Cache 驱逐:LRU(忽略动态增长特性) - 呼吁: 建立捕获 LLM 推理结构特征的数学模型,设计有可证明性能保证的算法 标签: #LLM服务 #算法优化 #理论 #调度 可信度: ★★★★☆ 后续行动: 归档,作为推理优化研究方向参考

arXiv: Online Scheduling for LLM Inference with KV Cache Constraints

核心贡献: - LLM 推理 KV Cache 约束的在线调度算法 - Hindsight optimal benchmark(整数规划) - 证明任意到达过程下无确定算法可获常数竞争比 - 多项式时间在线调度算法设计 标签: #在线调度 #KV-Cache #算法 #理论 可信度: ★★★★☆ 后续行动: 归档

RAG 工程

10 RAG Shifts Redefining Production AI in 2026

作者: Ozgur Guler | Microsoft Azure 高价值观点: 1. Retrieval 装饰性问题: 去掉检索上下文后模型给出相同答案 → 检索栈是装饰性的 2. 结构化数据优先: 关系数据库/图存储可直接计算时,优先生成 SQL/Cypher 而非文本块检索 3. Agentic RAG 替代 Naive RAG 4. Context Caching 成熟改变 LLM 经济性 标签: #RAG #生产系统 #检索评估 #Microsoft 可信度: ★★★★★ 后续行动: 精读——纳入 RAG 工程实践主题页

Production-Ready RAG Architecture Patterns for 2026

核心观点: - 50+ 企业 RAG 部署经验总结 - "Production RAG is a retrieval problem first and an LLM problem second" - Demo 在第 3 周被真实用户/真实数据打碎 - 架构模式:Chunker → Embedder → Vector Store → Retriever → Reranker → Generator - 评估层 + Tracing 层是生产必备 标签: #RAG #生产架构 #企业部署 #检索 可信度: ★★★★☆ 后续行动: 归档

更新时间: 2026-05-14 内容: 完整 RAG 架构解析,含 hybrid + reranker 栈、评估指标、FAGI 评估伴侣 标签: #RAG #架构 #评估 #混合搜索 可信度: ★★★★☆ 后续行动: 归档

Agent 工程

State of Agent Engineering — LangChain

核心数据(来自 LangChain 调查): - 10k+ 员工组织最大挑战:幻觉和输出一致性 - 人类洞见持续注入模型更新的结构化自动化流程 - Annotation Queues 规模化局限 → 自动化评估必要性 标签: #Agent工程 #可观测性 #评估 #LangChain 可信度: ★★★★☆ 后续行动: 归档

Multi-Agentic RAG with Hugging Face Code Agents

核心: 消费级硬件运行的小模型也能驱动多 Agentic RAG 系统 标签: #多Agent #RAG #HF-Code-Agents #本地推理 可信度: ★★★☆☆ 后续行动: 归档

Vector DB 趋势

What's Changing in Vector Databases in 2026

核心观点: - 市场从"Pinecone 专用"转向"用 PostgreSQL 构建" - 所有主流云厂商和传统数据库(AWS/Azure/MongoDB/PostgreSQL)已原生支持向量搜索 - 专用向量数据库压缩到:十亿级向量 + <50ms 延迟需求场景 - 边缘/本地部署支持是当前缺口 决策框架: 云 vs. 自建 vs. 边缘场景划分 标签: #向量数据库 #PostgreSQL #pgvector #边缘部署 #市场趋势 可信度: ★★★★☆ 后续行动: 纳入 Vector DB 选型主题页


五、CSDN 高价值内容

2026 AI开发实战:RAG+AI Agent企业级方案深度解析(附完整可运行代码)

来源: CSDN OPC 开发者社区 内容质量: 含完整可运行 Python 代码,LangChain + FAISS + BGE 嵌入 + DuckDuckGo 搜索 适合: 工程实践参考 标签: #RAG #AI-Agent #LangChain #代码实战 可信度: ★★★★☆ 后续行动: 归档,作为代码示例参考(已有类似内容可去重)


六、分类标签总览

#GitHub-Trending #HuggingFace #Substack #LLM-Agent #RAG #Inference #多Agent #MCP #OWASP #向量数据库 #PostgreSQL #pgvector #MoE #并行策略 #KV-Cache #安全 #评估 #LangChain #Dify #生产部署


七、建议写入路径

主要草稿路径: /shared/research-kb/inbox/jay/2026-06-21-morning-github-hf-substack-agentic-rag-inference.md

关联主题页建议(供后续同步任务参考): 1. Agent 工程主题页 — 更新 Stack 6 层框架(来自 The AI Engineer Substack) 2. Agent 安全主题页 — 新增 OWASP Top 10 Agents(ASI01-ASI10) 3. 推理工程主题页 — KV Cache 教程 + MLSys Meta 生产经验 + arXiv 数学优化 Position Paper 4. RAG 工程主题页 — 检索装饰性检测方法 + Hybrid+Reranker 栈 + 生产架构模式 5. Vector DB 选型页 — 2026 市场趋势(PostgreSQL 原生化 + 边缘部署缺口)


八、精读/审稿/主题页更新建议

优先级 行动 来源
🔴 精读 Agent Stack 6 层框架(The AI Engineer) Substack
🔴 精读 OWASP Top 10 Agents 2026 Cheat Sheet Substack
🔴 精读 Meta MLSys Oral — Llama 推理部署优化 arXiv/MLSys
🟡 审稿 KV Caching Explained(HF Blog) HF
🟡 审稿 RAG Shifts — Production AI 2026 Medium/Azure
🟡 审稿 Vector DB 2026 市场趋势 DEV.to
🟢 归档 Dify、RAG Foundry、RAG-Anything、Serge、Intel XPU Triton 各自来源

本简报由 Jay 实例生成 · 2026-06-21 09:35 (UTC+8) · 仅作为研究线索,不构成任何技术建议