研究草稿 · AI 工程·LLM 部署·RAG·后端基础设施
Jay · 2026-06-17 · 第3次轮次
📌 本次主题
AI 工程:GitHub Trending / Hugging Face / Substack / 后端部署·RAG 基础设施
一、GitHub Trending 高价值项目
1. awesome-ai-agents-2026
- 链接:https://github.com/caramaschiHG/awesome-ai-agents-2026
- ⭐ 1.1k · 更新频率:月更
- 内容摘要:340+ 资源,20个分类,涵盖协议标准( MCP)、可观测性、Coding Agents、Browser Agents、RAG & Knowledge Bases、Local & Self-hosted AI、多智能体编排等。
- 评价:当前最全面的 AI Agent 领域全景图,适合作为导航页使用。协议层 MCP 和 Model Context Protocol 已成标准。
- 可信度:⭐⭐⭐⭐⭐
- 后续行动:可精读「Protocols & Standards」和「Observability & Evaluation」分类,更新知识库导航页。
2. ai-engineering-hub
- 链接:https://github.com/patchy631/ai-engineering-hub
- 内容摘要:深度教程集合,含 Multi-Agent deep-researcher (MCP Windows/Linux)、Website-to-API with FireCrawl、MCP agentic RAG、chat-with-code、deepseek-multimodal-RAG 等实战项目。
- 评价:教程偏工程落地,含 agent + MCP + Firecrawl 组合案例,适合构建知识库/研究类 Agent。
- 可信度:⭐⭐⭐⭐
3. llm-d (Red Hat)
- 链接:https://llm-d.ai/blog
- 博客摘要:
- v0.2 引入 KServe 蓝图(well-lit paths),实现 Kubernetes 原生 LLM 推理扩展
- KV Cache Offloading:原生 Offloading Connector 可将 KV 块卸载到任意共享文件系统(FS backend),性能优于 LMCache/DynamoKVBM
- v0.4 引入 Speculative Decoding + Prefill/Decode Disaggregation
- Tesla 生产环境验证,3x 输出 tokens/s 提升,2x TTFT 降低
- 评价:KServe + llm-d + vLLM 组合已是企业级 LLM 推理的标准开源方案,Red Hat 背书,生产就绪。值得关注 KV Cache Offloading 和 prefix-cache aware routing 优化路径。
- 可信度:⭐⭐⭐⭐⭐(工程团队亲述)
- 后续行动:建议写入「LLM 推理部署」主题页,作为 Kubernetes 推理方案首选参考。
二、Hugging Face 高价值内容
1. State of Open Source on Hugging Face: Spring 2026
- 链接:https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026
- 核心观点:
- Legacy 企业(Airbnb 等)加大开源生态投入,组织级订阅增长
- 中国开源模型(Qwen、DeepSeek 等) Explicit 支持国产芯片
- Kernel Hub 上线,支持 NVIDIA/AMD GPU 优化内核
- 机器人和数据集在 HF 使用与地区发展强相关
- 评价:宏观视角,了解 2026 上半年开源模型生态格局。
- 可信度:⭐⭐⭐⭐⭐
- 后续行动:建议纳入季度 AI 生态报告参考。
2. KV Caching Explained: Optimizing Transformer Inference Efficiency
- 链接:https://huggingface.co/blog/not-lain/kv-caching
- 核心观点:详细解析 KV Cache 机制及其对 Transformer 推理效率的影响。
- 评价:工程友好,适合作为 LLM 推理优化的基础文章收录。
- 可信度:⭐⭐⭐⭐
3. HF Papers — Trending(2026-06-02 ~ 2026-06-09)
- 值得关注:PaddlePaddle(Jun 2)、Microsoft Research(May 22)、Z.ai(Jun 9)等机构持续输出新论文
- RAG 相关论文:
RAG-Anything(统一多模态 RAG 框架)、RAG Foundry(增强 LLMs 的 RAG 训练框架) - 评价:RAG 仍是研究热点,Multi-modal RAG 是新方向。
- 后续行动:建议关注
RAG-Anything论文原文。
三、Substack 高价值文章
1. The AI Agents Stack (2026 Edition)
- 专栏:The AI Engineer
- 链接:https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
- 核心观点:
- Agent Stack 分为六层(2024年的原始版只有三层)
- 六层:LLM → Tooling → Memory → Orchestration → Evaluation → Safety
- 至少三层是 2024 年底还不存在的独立分类
- 评价:业界事实标准,影响了多数工程团队的 Agent 架构设计。必读。
- 可信度:⭐⭐⭐⭐⭐
- 后续行动:建议精读,并对照更新知识库 Agent 架构主题页。
2. OWASP Top 10 Agents & AI Vulnerabilities (2026 Cheat Sheet)
- 专栏:Alex Ewerm ?
- 链接:https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents
- 核心观点:
- 覆盖 OWASP Top 10 LLM (LLM01-LLM10) + OWASP Top 10 Agents (ASI01-ASI10)
- Agent 安全核心:Semantic Firewall(用隔离的约束模型评估输入/输出)+ 最小权限原则
- LLM 和 Agent 的风险差异在于循环自治带来的财务灾难风险
- 评价:工程视角的 AI 安全备忘单,极其实用。每个 Agent 工程师必读。
- 可信度:⭐⭐⭐⭐⭐
- 后续行动:建议写入「AI Agent 安全」专题页。
3. What 1,000+ Job Descriptions Reveal About the AI Engineer Role in 2026
- 专栏:Alex Chen / Beyond Data
- 链接:https://alexeyondata.substack.com/p/what-1000-job-descriptions-reveal
- 核心观点:
- AI Engineer 定义:从基础模型出发,负责设计、评估和生产运营系统的工程师
- 传统 ML/DL 角色占比 <2%,主流是 LLM 应用构建者
- 核心技能:RAG、Agents、Prompt Engineering、API 集成
- 评价:市场视角的 AI 工程技能图谱,可作为学习路径参考。
- 可信度:⭐⭐⭐⭐
4. AI Agent Architectures
- 专栏:Cobus Greyling
- 链接:https://cobusgreyling.substack.com/p/ai-agent-architectures
- 核心观点:
- 三种架构:Monolithic Single Agent with Tools / Agentic Workflows / LLM Skills
- 多智能体系统(MAS)编译为单 Agent + Skills 可降低 54% token 使用量和 50% 延迟
- 层级路由(Hierarchical Routing)可缓解技能选择容量问题
- 评价:架构演进路线清晰,工程权衡有数据支撑,值得精读。
- 可信度:⭐⭐⭐⭐
四、LLM 推理部署·后端工程
1. Production-Grade LLM Inference at Scale with KServe, llm-d, and vLLM
- 链接:https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm
- 核心数据:
- prefix-cache aware routing:3x tokens/s 提升,2x TTFT 降低
- Tesla 生产验证
- 评价:企业级 Kubernetes LLM 推理首选方案,llm-d 已是 Red Hat 官方支持项目。
- 可信度:⭐⭐⭐⭐⭐
2. Combining KServe and llm-d for optimized generative AI inference
- 链接:https://developers.redhat.com/articles/2026/04/21/kserve-llm-d-optimized-gen-ai-inference
- 核心内容:
- KServe v0.16 引入
LLMInferenceService - Envoy AI Gateway 作为请求路由控制面
- 完整请求生命周期解析(从
/v1/chat/completions到推理引擎) - 评价:Red Hat 开发者文章,工程细节丰富,适合平台工程师参考。
- 可信度:⭐⭐⭐⭐⭐
3. Kubernetes for GenAI Inference(arXiv:2602.04900v2)
- 链接:https://arxiv.org/html/2602.04900v2
- 核心数据:
- Kueue 降低总 makespan 达 15%
- DAS 缩短平均 job 完成时间达 36%
- GAIE + llm-d 组合使尾 TTFT 改善达 90%(高负载下)
- 评价:学术 + 工程结合,Kubernetes 原生 AI 推理栈的量化验证。
- 可信度:⭐⭐⭐⭐
五、RAG 基础设施
1. 10 RAG Shifts Redefining Production AI in 2026(Medium/Microsoft Azure)
- 链接:https://medium.com/microsoftazure/10-rag-shifts-redefining-production-ai-in-2026-7acbdd66076c
- 核心观点:
- GRAG / GNN-RAG:利用文本子图和图结构提升多跳推理,而非纯文本相似度
- 当数据在关系库/图库中时,生成 SQL/Cypher 查询执行往往优于向量检索
- 评估 RAG 真实价值:去掉检索上下文后模型是否仍给出相同答案——若相同,则检索栈是"装饰性"的
- 评价:RAG 生产工程反思,Graph RAG 和结构化数据查询是 2026 明显趋势。
- 可信度:⭐⭐⭐⭐
2. Best Enterprise RAG Platforms for 2026: A Buyer's Guide
- 链接:https://onyx.app/insights/enterprise-rag-platforms-2026
- 核心观点:
- 市场分层:Turnkey 平台(Onyx, Glean, Cohere North, Vectara)/ 公有云 RAG 服务(AWS Bedrock KB, Azure AI Search, Google Gemini Enterprise)/ 自建框架(Pinecone, LlamaIndex, LangChain, Elastic)
- Onyx:MIT 许可开源,支持 40+ 企业连接器,混合搜索,任意 LLM
- 评价:RAG 平台选型参考,企业自建 vs 商业方案权衡。
- 可信度:⭐⭐⭐⭐
3. Vector DB 对比(综合)
- 推荐选型:
- 零运维托管:Pinecone(5-10ms 延迟)
- 开源高性能:Qdrant(子 5ms,多租户过滤强)
- 大规模企业:Milvus
- 混合搜索:Weaviate / Elasticsearch
- 评价:2026 年向量数据库格局稳定,Pinecone 和 Qdrant 是最主流选择。
六、CSDN 高价值(筛选结果)
注:本次搜索 CSDN 相关性结果较少,未发现具有版本/环境/命令/源码分析/复现经验的高价值文章。Top 10 Vector DB 选型类内容已在上文向量数据库对比章节覆盖。
分类标签
#AI-Agent #LLM-部署 #RAG #Kubernetes #vLLM #KServe #MCP #Graph-RAG #向量数据库 #AI安全 #AI工程 #Substack #Hugging-Face #GitHub-Trending
建议写入路径
- 主草稿:
/shared/research-kb/inbox/jay/2026-06-17-ai-engineering-llm-deploy-rag.md - 如有后续精读,可拆分为:
2026-06-17-ai-agents-stack-2026.md(Substack 三篇合集)2026-06-17-llm-inference-k8s-kserve-llmd.md(推理栈)2026-06-17-rag-production-2026-trends.md(RAG 生产趋势)
是否需要精读/审稿/主题页更新
- ✅ 建议精读:「AI Agents Stack 2026 Edition」(必读,业界事实标准)
- ✅ 建议精读:OWASP Top 10 Agents 安全备忘单
- ✅ 建议更新主题页:Agent 架构图(基于 AI Agents Stack 2026 六层模型)
- ✅ 建议更新主题页:LLM 推理部署(KServe + llm-d + vLLM 方案)
- ⚠️ 建议核实:
RAG-Anything论文原 arXiv ID(可进一步查找) - ⚠️ 建议核实:arXiv 2602.04900v2 论文标题