← 笔记
Jay 2026-06-17

研究草稿 · AI 工程·LLM 部署·RAG·后端基础设施

Jay · 2026-06-17 · 第3次轮次


📌 本次主题

AI 工程:GitHub Trending / Hugging Face / Substack / 后端部署·RAG 基础设施


1. awesome-ai-agents-2026

  • 链接:https://github.com/caramaschiHG/awesome-ai-agents-2026
  • ⭐ 1.1k · 更新频率:月更
  • 内容摘要:340+ 资源,20个分类,涵盖协议标准( MCP)、可观测性、Coding Agents、Browser Agents、RAG & Knowledge Bases、Local & Self-hosted AI、多智能体编排等。
  • 评价:当前最全面的 AI Agent 领域全景图,适合作为导航页使用。协议层 MCP 和 Model Context Protocol 已成标准。
  • 可信度:⭐⭐⭐⭐⭐
  • 后续行动:可精读「Protocols & Standards」和「Observability & Evaluation」分类,更新知识库导航页。

2. ai-engineering-hub

  • 链接:https://github.com/patchy631/ai-engineering-hub
  • 内容摘要:深度教程集合,含 Multi-Agent deep-researcher (MCP Windows/Linux)、Website-to-API with FireCrawl、MCP agentic RAG、chat-with-code、deepseek-multimodal-RAG 等实战项目。
  • 评价:教程偏工程落地,含 agent + MCP + Firecrawl 组合案例,适合构建知识库/研究类 Agent。
  • 可信度:⭐⭐⭐⭐

3. llm-d (Red Hat)

  • 链接:https://llm-d.ai/blog
  • 博客摘要
  • v0.2 引入 KServe 蓝图(well-lit paths),实现 Kubernetes 原生 LLM 推理扩展
  • KV Cache Offloading:原生 Offloading Connector 可将 KV 块卸载到任意共享文件系统(FS backend),性能优于 LMCache/DynamoKVBM
  • v0.4 引入 Speculative Decoding + Prefill/Decode Disaggregation
  • Tesla 生产环境验证,3x 输出 tokens/s 提升,2x TTFT 降低
  • 评价:KServe + llm-d + vLLM 组合已是企业级 LLM 推理的标准开源方案,Red Hat 背书,生产就绪。值得关注 KV Cache Offloading 和 prefix-cache aware routing 优化路径。
  • 可信度:⭐⭐⭐⭐⭐(工程团队亲述)
  • 后续行动:建议写入「LLM 推理部署」主题页,作为 Kubernetes 推理方案首选参考。

二、Hugging Face 高价值内容

1. State of Open Source on Hugging Face: Spring 2026

  • 链接:https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026
  • 核心观点
  • Legacy 企业(Airbnb 等)加大开源生态投入,组织级订阅增长
  • 中国开源模型(Qwen、DeepSeek 等) Explicit 支持国产芯片
  • Kernel Hub 上线,支持 NVIDIA/AMD GPU 优化内核
  • 机器人和数据集在 HF 使用与地区发展强相关
  • 评价:宏观视角,了解 2026 上半年开源模型生态格局。
  • 可信度:⭐⭐⭐⭐⭐
  • 后续行动:建议纳入季度 AI 生态报告参考。

2. KV Caching Explained: Optimizing Transformer Inference Efficiency

  • 链接:https://huggingface.co/blog/not-lain/kv-caching
  • 核心观点:详细解析 KV Cache 机制及其对 Transformer 推理效率的影响。
  • 评价:工程友好,适合作为 LLM 推理优化的基础文章收录。
  • 可信度:⭐⭐⭐⭐

3. HF Papers — Trending(2026-06-02 ~ 2026-06-09)

  • 值得关注:PaddlePaddle(Jun 2)、Microsoft Research(May 22)、Z.ai(Jun 9)等机构持续输出新论文
  • RAG 相关论文RAG-Anything(统一多模态 RAG 框架)、RAG Foundry(增强 LLMs 的 RAG 训练框架)
  • 评价:RAG 仍是研究热点,Multi-modal RAG 是新方向。
  • 后续行动:建议关注 RAG-Anything 论文原文。

三、Substack 高价值文章

1. The AI Agents Stack (2026 Edition)

  • 专栏:The AI Engineer
  • 链接:https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
  • 核心观点
  • Agent Stack 分为六层(2024年的原始版只有三层)
  • 六层:LLM → Tooling → Memory → Orchestration → Evaluation → Safety
  • 至少三层是 2024 年底还不存在的独立分类
  • 评价:业界事实标准,影响了多数工程团队的 Agent 架构设计。必读。
  • 可信度:⭐⭐⭐⭐⭐
  • 后续行动:建议精读,并对照更新知识库 Agent 架构主题页。

2. OWASP Top 10 Agents & AI Vulnerabilities (2026 Cheat Sheet)

  • 专栏:Alex Ewerm ?
  • 链接:https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents
  • 核心观点
  • 覆盖 OWASP Top 10 LLM (LLM01-LLM10) + OWASP Top 10 Agents (ASI01-ASI10)
  • Agent 安全核心:Semantic Firewall(用隔离的约束模型评估输入/输出)+ 最小权限原则
  • LLM 和 Agent 的风险差异在于循环自治带来的财务灾难风险
  • 评价:工程视角的 AI 安全备忘单,极其实用。每个 Agent 工程师必读。
  • 可信度:⭐⭐⭐⭐⭐
  • 后续行动:建议写入「AI Agent 安全」专题页。

3. What 1,000+ Job Descriptions Reveal About the AI Engineer Role in 2026

  • 专栏:Alex Chen / Beyond Data
  • 链接:https://alexeyondata.substack.com/p/what-1000-job-descriptions-reveal
  • 核心观点
  • AI Engineer 定义:从基础模型出发,负责设计、评估和生产运营系统的工程师
  • 传统 ML/DL 角色占比 <2%,主流是 LLM 应用构建者
  • 核心技能:RAG、Agents、Prompt Engineering、API 集成
  • 评价:市场视角的 AI 工程技能图谱,可作为学习路径参考。
  • 可信度:⭐⭐⭐⭐

4. AI Agent Architectures

  • 专栏:Cobus Greyling
  • 链接:https://cobusgreyling.substack.com/p/ai-agent-architectures
  • 核心观点
  • 三种架构:Monolithic Single Agent with Tools / Agentic Workflows / LLM Skills
  • 多智能体系统(MAS)编译为单 Agent + Skills 可降低 54% token 使用量和 50% 延迟
  • 层级路由(Hierarchical Routing)可缓解技能选择容量问题
  • 评价:架构演进路线清晰,工程权衡有数据支撑,值得精读。
  • 可信度:⭐⭐⭐⭐

四、LLM 推理部署·后端工程

1. Production-Grade LLM Inference at Scale with KServe, llm-d, and vLLM

  • 链接:https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm
  • 核心数据
  • prefix-cache aware routing:3x tokens/s 提升,2x TTFT 降低
  • Tesla 生产验证
  • 评价:企业级 Kubernetes LLM 推理首选方案,llm-d 已是 Red Hat 官方支持项目。
  • 可信度:⭐⭐⭐⭐⭐

2. Combining KServe and llm-d for optimized generative AI inference

  • 链接:https://developers.redhat.com/articles/2026/04/21/kserve-llm-d-optimized-gen-ai-inference
  • 核心内容
  • KServe v0.16 引入 LLMInferenceService
  • Envoy AI Gateway 作为请求路由控制面
  • 完整请求生命周期解析(从 /v1/chat/completions 到推理引擎)
  • 评价:Red Hat 开发者文章,工程细节丰富,适合平台工程师参考。
  • 可信度:⭐⭐⭐⭐⭐

3. Kubernetes for GenAI Inference(arXiv:2602.04900v2)

  • 链接:https://arxiv.org/html/2602.04900v2
  • 核心数据
  • Kueue 降低总 makespan 达 15%
  • DAS 缩短平均 job 完成时间达 36%
  • GAIE + llm-d 组合使尾 TTFT 改善达 90%(高负载下)
  • 评价:学术 + 工程结合,Kubernetes 原生 AI 推理栈的量化验证。
  • 可信度:⭐⭐⭐⭐

五、RAG 基础设施

1. 10 RAG Shifts Redefining Production AI in 2026(Medium/Microsoft Azure)

  • 链接:https://medium.com/microsoftazure/10-rag-shifts-redefining-production-ai-in-2026-7acbdd66076c
  • 核心观点
  • GRAG / GNN-RAG:利用文本子图和图结构提升多跳推理,而非纯文本相似度
  • 当数据在关系库/图库中时,生成 SQL/Cypher 查询执行往往优于向量检索
  • 评估 RAG 真实价值:去掉检索上下文后模型是否仍给出相同答案——若相同,则检索栈是"装饰性"的
  • 评价:RAG 生产工程反思,Graph RAG 和结构化数据查询是 2026 明显趋势。
  • 可信度:⭐⭐⭐⭐

2. Best Enterprise RAG Platforms for 2026: A Buyer's Guide

  • 链接:https://onyx.app/insights/enterprise-rag-platforms-2026
  • 核心观点
  • 市场分层:Turnkey 平台(Onyx, Glean, Cohere North, Vectara)/ 公有云 RAG 服务(AWS Bedrock KB, Azure AI Search, Google Gemini Enterprise)/ 自建框架(Pinecone, LlamaIndex, LangChain, Elastic)
  • Onyx:MIT 许可开源,支持 40+ 企业连接器,混合搜索,任意 LLM
  • 评价:RAG 平台选型参考,企业自建 vs 商业方案权衡。
  • 可信度:⭐⭐⭐⭐

3. Vector DB 对比(综合)

  • 推荐选型
  • 零运维托管:Pinecone(5-10ms 延迟)
  • 开源高性能:Qdrant(子 5ms,多租户过滤强)
  • 大规模企业:Milvus
  • 混合搜索:Weaviate / Elasticsearch
  • 评价:2026 年向量数据库格局稳定,Pinecone 和 Qdrant 是最主流选择。

六、CSDN 高价值(筛选结果)

注:本次搜索 CSDN 相关性结果较少,未发现具有版本/环境/命令/源码分析/复现经验的高价值文章。Top 10 Vector DB 选型类内容已在上文向量数据库对比章节覆盖。


分类标签

#AI-Agent #LLM-部署 #RAG #Kubernetes #vLLM #KServe #MCP #Graph-RAG #向量数据库 #AI安全 #AI工程 #Substack #Hugging-Face #GitHub-Trending


建议写入路径

  • 主草稿:/shared/research-kb/inbox/jay/2026-06-17-ai-engineering-llm-deploy-rag.md
  • 如有后续精读,可拆分为:
  • 2026-06-17-ai-agents-stack-2026.md(Substack 三篇合集)
  • 2026-06-17-llm-inference-k8s-kserve-llmd.md(推理栈)
  • 2026-06-17-rag-production-2026-trends.md(RAG 生产趋势)

是否需要精读/审稿/主题页更新

  • 建议精读:「AI Agents Stack 2026 Edition」(必读,业界事实标准)
  • 建议精读:OWASP Top 10 Agents 安全备忘单
  • 建议更新主题页:Agent 架构图(基于 AI Agents Stack 2026 六层模型)
  • 建议更新主题页:LLM 推理部署(KServe + llm-d + vLLM 方案)
  • ⚠️ 建议核实RAG-Anything 论文原 arXiv ID(可进一步查找)
  • ⚠️ 建议核实:arXiv 2602.04900v2 论文标题