研究草稿 · AI 工程·LLM 部署·RAG·后端基础设施

Jay · 2026-06-17 · 第3次轮次

📌 本次主题

AI 工程：GitHub Trending / Hugging Face / Substack / 后端部署·RAG 基础设施

1. awesome-ai-agents-2026

链接：https://github.com/caramaschiHG/awesome-ai-agents-2026
⭐ 1.1k · 更新频率：月更
内容摘要：340+ 资源，20个分类，涵盖协议标准（ MCP）、可观测性、Coding Agents、Browser Agents、RAG & Knowledge Bases、Local & Self-hosted AI、多智能体编排等。
评价：当前最全面的 AI Agent 领域全景图，适合作为导航页使用。协议层 MCP 和 Model Context Protocol 已成标准。
可信度：⭐⭐⭐⭐⭐
后续行动：可精读「Protocols & Standards」和「Observability & Evaluation」分类，更新知识库导航页。

2. ai-engineering-hub

链接：https://github.com/patchy631/ai-engineering-hub
内容摘要：深度教程集合，含 Multi-Agent deep-researcher (MCP Windows/Linux)、Website-to-API with FireCrawl、MCP agentic RAG、chat-with-code、deepseek-multimodal-RAG 等实战项目。
评价：教程偏工程落地，含 agent + MCP + Firecrawl 组合案例，适合构建知识库/研究类 Agent。
可信度：⭐⭐⭐⭐

3. llm-d (Red Hat)

链接：https://llm-d.ai/blog
博客摘要：
v0.2 引入 KServe 蓝图（well-lit paths），实现 Kubernetes 原生 LLM 推理扩展
KV Cache Offloading：原生 Offloading Connector 可将 KV 块卸载到任意共享文件系统（FS backend），性能优于 LMCache/DynamoKVBM
v0.4 引入 Speculative Decoding + Prefill/Decode Disaggregation
Tesla 生产环境验证，3x 输出 tokens/s 提升，2x TTFT 降低
评价：KServe + llm-d + vLLM 组合已是企业级 LLM 推理的标准开源方案，Red Hat 背书，生产就绪。值得关注 KV Cache Offloading 和 prefix-cache aware routing 优化路径。
可信度：⭐⭐⭐⭐⭐（工程团队亲述）
后续行动：建议写入「LLM 推理部署」主题页，作为 Kubernetes 推理方案首选参考。

二、Hugging Face 高价值内容

1. State of Open Source on Hugging Face: Spring 2026

链接：https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026
核心观点：
Legacy 企业（Airbnb 等）加大开源生态投入，组织级订阅增长
中国开源模型（Qwen、DeepSeek 等） Explicit 支持国产芯片
Kernel Hub 上线，支持 NVIDIA/AMD GPU 优化内核
机器人和数据集在 HF 使用与地区发展强相关
评价：宏观视角，了解 2026 上半年开源模型生态格局。
可信度：⭐⭐⭐⭐⭐
后续行动：建议纳入季度 AI 生态报告参考。

2. KV Caching Explained: Optimizing Transformer Inference Efficiency

链接：https://huggingface.co/blog/not-lain/kv-caching
核心观点：详细解析 KV Cache 机制及其对 Transformer 推理效率的影响。
评价：工程友好，适合作为 LLM 推理优化的基础文章收录。
可信度：⭐⭐⭐⭐

3. HF Papers — Trending（2026-06-02 ~ 2026-06-09）

值得关注：PaddlePaddle（Jun 2）、Microsoft Research（May 22）、Z.ai（Jun 9）等机构持续输出新论文
RAG 相关论文：RAG-Anything（统一多模态 RAG 框架）、RAG Foundry（增强 LLMs 的 RAG 训练框架）
评价：RAG 仍是研究热点，Multi-modal RAG 是新方向。
后续行动：建议关注 RAG-Anything 论文原文。

三、Substack 高价值文章

1. The AI Agents Stack (2026 Edition)

专栏：The AI Engineer
链接：https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
核心观点：
Agent Stack 分为六层（2024年的原始版只有三层）
六层：LLM → Tooling → Memory → Orchestration → Evaluation → Safety
至少三层是 2024 年底还不存在的独立分类
评价：业界事实标准，影响了多数工程团队的 Agent 架构设计。必读。
可信度：⭐⭐⭐⭐⭐
后续行动：建议精读，并对照更新知识库 Agent 架构主题页。

2. OWASP Top 10 Agents & AI Vulnerabilities (2026 Cheat Sheet)

专栏：Alex Ewerm ？
链接：https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents
核心观点：
覆盖 OWASP Top 10 LLM (LLM01-LLM10) + OWASP Top 10 Agents (ASI01-ASI10)
Agent 安全核心：Semantic Firewall（用隔离的约束模型评估输入/输出）+ 最小权限原则
LLM 和 Agent 的风险差异在于循环自治带来的财务灾难风险
评价：工程视角的 AI 安全备忘单，极其实用。每个 Agent 工程师必读。
可信度：⭐⭐⭐⭐⭐
后续行动：建议写入「AI Agent 安全」专题页。

3. What 1,000+ Job Descriptions Reveal About the AI Engineer Role in 2026

专栏：Alex Chen / Beyond Data
链接：https://alexeyondata.substack.com/p/what-1000-job-descriptions-reveal
核心观点：
AI Engineer 定义：从基础模型出发，负责设计、评估和生产运营系统的工程师
传统 ML/DL 角色占比 <2%，主流是 LLM 应用构建者
核心技能：RAG、Agents、Prompt Engineering、API 集成
评价：市场视角的 AI 工程技能图谱，可作为学习路径参考。
可信度：⭐⭐⭐⭐

4. AI Agent Architectures

专栏：Cobus Greyling
链接：https://cobusgreyling.substack.com/p/ai-agent-architectures
核心观点：
三种架构：Monolithic Single Agent with Tools / Agentic Workflows / LLM Skills
多智能体系统（MAS）编译为单 Agent + Skills 可降低 54% token 使用量和 50% 延迟
层级路由（Hierarchical Routing）可缓解技能选择容量问题
评价：架构演进路线清晰，工程权衡有数据支撑，值得精读。
可信度：⭐⭐⭐⭐

四、LLM 推理部署·后端工程

1. Production-Grade LLM Inference at Scale with KServe, llm-d, and vLLM

链接：https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm
核心数据：
prefix-cache aware routing：3x tokens/s 提升，2x TTFT 降低
Tesla 生产验证
评价：企业级 Kubernetes LLM 推理首选方案，llm-d 已是 Red Hat 官方支持项目。
可信度：⭐⭐⭐⭐⭐

2. Combining KServe and llm-d for optimized generative AI inference

链接：https://developers.redhat.com/articles/2026/04/21/kserve-llm-d-optimized-gen-ai-inference
核心内容：
KServe v0.16 引入 LLMInferenceService
Envoy AI Gateway 作为请求路由控制面
完整请求生命周期解析（从 /v1/chat/completions 到推理引擎）
评价：Red Hat 开发者文章，工程细节丰富，适合平台工程师参考。
可信度：⭐⭐⭐⭐⭐

3. Kubernetes for GenAI Inference（arXiv:2602.04900v2）

链接：https://arxiv.org/html/2602.04900v2
核心数据：
Kueue 降低总 makespan 达 15%
DAS 缩短平均 job 完成时间达 36%
GAIE + llm-d 组合使尾 TTFT 改善达 90%（高负载下）
评价：学术 + 工程结合，Kubernetes 原生 AI 推理栈的量化验证。
可信度：⭐⭐⭐⭐

五、RAG 基础设施

1. 10 RAG Shifts Redefining Production AI in 2026（Medium/Microsoft Azure）

链接：https://medium.com/microsoftazure/10-rag-shifts-redefining-production-ai-in-2026-7acbdd66076c
核心观点：
GRAG / GNN-RAG：利用文本子图和图结构提升多跳推理，而非纯文本相似度
当数据在关系库/图库中时，生成 SQL/Cypher 查询执行往往优于向量检索
评估 RAG 真实价值：去掉检索上下文后模型是否仍给出相同答案——若相同，则检索栈是"装饰性"的
评价：RAG 生产工程反思，Graph RAG 和结构化数据查询是 2026 明显趋势。
可信度：⭐⭐⭐⭐

2. Best Enterprise RAG Platforms for 2026: A Buyer's Guide

链接：https://onyx.app/insights/enterprise-rag-platforms-2026
核心观点：
市场分层：Turnkey 平台（Onyx, Glean, Cohere North, Vectara）/ 公有云 RAG 服务（AWS Bedrock KB, Azure AI Search, Google Gemini Enterprise）/ 自建框架（Pinecone, LlamaIndex, LangChain, Elastic）
Onyx：MIT 许可开源，支持 40+ 企业连接器，混合搜索，任意 LLM
评价：RAG 平台选型参考，企业自建 vs 商业方案权衡。
可信度：⭐⭐⭐⭐

3. Vector DB 对比（综合）

推荐选型：
零运维托管：Pinecone（5-10ms 延迟）
开源高性能：Qdrant（子 5ms，多租户过滤强）
大规模企业：Milvus
混合搜索：Weaviate / Elasticsearch
评价：2026 年向量数据库格局稳定，Pinecone 和 Qdrant 是最主流选择。

六、CSDN 高价值（筛选结果）

注：本次搜索 CSDN 相关性结果较少，未发现具有版本/环境/命令/源码分析/复现经验的高价值文章。Top 10 Vector DB 选型类内容已在上文向量数据库对比章节覆盖。

分类标签

#AI-Agent #LLM-部署 #RAG #Kubernetes #vLLM #KServe #MCP #Graph-RAG #向量数据库 #AI安全 #AI工程 #Substack #Hugging-Face #GitHub-Trending

建议写入路径

主草稿：/shared/research-kb/inbox/jay/2026-06-17-ai-engineering-llm-deploy-rag.md
如有后续精读，可拆分为：
2026-06-17-ai-agents-stack-2026.md（Substack 三篇合集）
2026-06-17-llm-inference-k8s-kserve-llmd.md（推理栈）
2026-06-17-rag-production-2026-trends.md（RAG 生产趋势）

是否需要精读/审稿/主题页更新

✅ 建议精读：「AI Agents Stack 2026 Edition」（必读，业界事实标准）
✅ 建议精读：OWASP Top 10 Agents 安全备忘单
✅ 建议更新主题页：Agent 架构图（基于 AI Agents Stack 2026 六层模型）
✅ 建议更新主题页：LLM 推理部署（KServe + llm-d + vLLM 方案）
⚠️ 建议核实：RAG-Anything 论文原 arXiv ID（可进一步查找）
⚠️ 建议核实：arXiv 2602.04900v2 论文标题