工程实践筛选报告 · 2026-06-14

筛选主题：LLM Agent / RAG / MLOps 工程实践 检索范围：Tavily 学术+工程搜索（LLM agent RAG engineering production 2026）、Substack 工程专栏、AI Agent Stack 覆盖来源：Substack (theaiengineer, OWASP Alex Ewerlöf)、arXiv、Medium、TowardsAI、Reddit r/Rag、GitHub

✅ 保留条目

1. The AI Agents Stack (2026 Edition) — Paolo Perrone / The AI Engineer

来源：https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition 发布时间：2026-03-06 类型：工程架构（6层模型 + 生产经验） 可信度：⭐⭐⭐⭐ 高——独立 AI 工程垂直媒体，作者 Paolo Perrone 有工程实践背景，引用真实生产场景（LangGraph 14节点状态图案例） 核心观点： - 2024-2026三年间三件事重绘了 Agent 技术栈：MCP 标准化工具连接层、推理模型改变单步自主性、Memory 升级为一等公民 - 6层架构：Models → Protocols & Tools → Memory → Frameworks → Evaluation → Guardrails - 关键工程原则：Layer 1 模型选择（Cursor 在 Claude/GPT-4/自研模型间路由）、Layer 2 MCP 服务器连接编辑器/终端/文件系统/Layer 3 代码库感知检索 - 框架取舍：LangGraph/CrewAI 在真实生产中两周内被撕掉，核心问题是"框架抽象泄漏在关键时刻" - 决策三问：需要管理多少状态？能承受多少供应商锁定？demo 到生产差距有多大？ 工程亮点： - 真实反模式：50行 OpenAI SDK + 2个 MCP 服务器替代 14节点 LangGraph 状态图 - 生产失败模式：chunk boundaries 切表格、eval sets 太干净、编排层抽象泄漏 - Cursor/Claude Code 的架构选择（自定义逻辑而非框架）作为工程决策参考 保留理由：有真实生产案例、架构权衡分析、6层分层框架，可作为 Agent 工程决策树参考 后续行动：建议审稿 → 考虑更新知识库 Agent 架构主题页

2. Building a Production-Grade AI Agent from Scratch in 2026 — Sifat Musfique / TowardsAI

来源：https://pub.towardsai.net/building-a-production-grade-ai-agent-from-scratch-in-2026-a-principles-first-guide-5b21754dc201 发布时间：2026-02 类型：代码实现（Python + Pydantic + ReAct 模式） 可信度：⭐⭐⭐⭐ 中高——技术博客，有 Pydantic 验证代码片段和 ReAct orchestrator 伪代码 核心观点： - 模块三元组：Tool System (Registry) + LLM Wrapper + Orchestrator（解耦原则） - Pydantic validation 强制 LLM 输出 JSON 格式，validation 失败触发 orchestrator 重试 - System prompt 设计原则：强制工具调用、禁止内部计算、精确 JSON 输出格式约束 - 生产级 vs 原型框架差距：LangChain/LangGraph 隐藏内部逻辑，生产调试图景下调试困难 - 大型编码 Agent（Cursor/Claude Code）选择自定义逻辑而非框架的原因：速度+准确性 工程亮点： - ReAct pattern 的 Python 伪代码片段（JSON schema + tool call format） - Provider swap 示例：从 Gemini 迁移到 GPT-5 只需改 Wrapper 层 - 框架 vs 自建的核心矛盾：overhead / abstraction leakage / debugging difficulty 保留理由：有可操作的 Python 架构模式图、Pydantic validation 逻辑、工程取舍分析；适合作为 Agent 架构模式参考 后续行动：建议精读 → 可收录到 Agent 工程实现模式页

3. OWASP Top 10 Agents & AI Vulnerabilities (2026) — Alex Ewerlöf

来源：https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents 发布时间：2026（持续更新）类型：安全工程（具体漏洞 + 缓解措施） 可信度：⭐⭐⭐⭐⭐ 高——OWASP 官方项目延伸，有 MCP Top 10 beta，作者 Alex Ewerlöf 是资深安全工程师 核心观点： - LLM06 Excessive Agency：Agent 拥有 IAM role/API key 后以非预期方式使用——缓解：最小权限原则 + JIT ephemeral tokens + HITL - ASI05 Unexpected Code Execution：动态生成代码（Python/bash）的不安全执行——缓解：生成与执行分离 + ephemeral micro-VM / Wasm sandbox - ASI04 Agentic Supply Chain：MCP 服务器被注入/供应链攻击——缓解：显式 allowlist MCP 连接 + signed manifests + hash pinning 依赖 - ASI06 Memory & Context Poisoning：RAG 数据库/长期记忆被污染——缓解：租户级别内存隔离 + 数据过期 + provenance tracking - 核心安全原则：guardrails 必须在 action 前执行，不是在 output 层；Charity Majors"AI 工程是带不可靠组件的分布式系统工程"原则 工程亮点： - 具体的攻击向量描述（非泛泛而谈） - 对应 OWASP LLM Top 10 (2025) 的映射关系 - MCP Top 10 beta 作为首个面向工具连接 Agent 的安全检查清单 保留理由：2026 Agent 安全工程必读，包含可操作缓解措施；OWASP 标准延伸值得收录 后续行动：建议精读 → 建议纳入 Agent 安全架构主题页

4. AI Engineering Blueprint for On-Premises RAG — arXiv:2604.01395v1

来源：https://arxiv.org/html/2604.01395v1 发布时间：2026-02 类型：学术工程论文（RAG 架构组件设计） 可信度：⭐⭐⭐⭐⭐ 高——arXiv peer-reviewed（标注为 on-premises RAG 的少数学术实现指导） 核心观点： - 动机：现有灰色文献讨论 RAG 以云为主，少有 on-premises 部署指导 - 核心组件：Loader（多数据源接口）+ Monitoring（OpenTelemetry 三支柱：logs/metrics/traces） - 与生产系统对比：RAGFlow、kotaemon、FELDM RAG Blueprint 缺乏企业级扩展组件 - 提出 Loader 灵活性设计 + Monitoring 可观测性标准 工程亮点： - OpenTelemetry 集成规范（跨所有三个支柱采集遥测数据） - 企业级 Loader 接口设计原则 - 灰色文献（博客/白皮书）与 peer-reviewed 的差距分析 保留理由：少有的 on-premises RAG 学术实现指导，OpenTelemetry 集成有参考价值 后续行动：建议审稿 → 可收录到 RAG 工程实现页面

5. VoltAgent/awesome-ai-agent-papers — GitHub

来源：https://github.com/VoltAgent/awesome-ai-agent-papers 发布时间：持续更新（2026年条目为主）类型：论文清单（带注释的 arXiv 论文导航） 可信度：⭐⭐⭐ 中——社区维护，有标注但非官方 核心条目摘录： - L-RAG：自适应 RAG，使用 entropy-based gating 跳过低不确定性场景的向量检索 - PRISMA：Multi-Agent RAG for multi-hop QA，Plan-Retrieve-Inspect-Solve-Memoize 架构 + GRPO 两阶段优化 - FROAV：RAG 可视化工作流编排 + LLM-as-Judge 评估，零基础设施代码原型验证 - Reliable Graph-RAG for Codebases：AST-derived graphs vs LLM-extracted KGs 基准对比（含 indexing cost） - VirtualEnv：Unreal Engine 5 仿真平台，用于具身 AI Agent 基准测试 保留理由：有注解的 2026 年论文导航，覆盖 RAG/Agent/Memory/Evaluation，可作为文献调研入口；FROAV 和 Graph-RAG 对比有工程参考价值 后续行动：建议泛读 → 可作为知识库论文推荐来源

6. Building a Modern RAG Agent in 2026: Qwen3 Embeddings + Qdrant — Gabriel Furnieles / TowardsAI

来源：https://pub.towardsai.net/building-a-modern-rag-pipeline-in-2026-qwen3-embeddings-and-vector-database-in-qdrant-ebeca2bbe338 发布时间：2026-02-17 类型：工程实现（Qwen3 + Qdrant 全流程） 可信度：⭐⭐⭐ 中——分阶段路线图（Phase I-IV），有具体技术选型（Qwen3 embeddings、Qdrant 向量库） 核心观点： - 现代 RAG 三种架构：Standard RAG → Agentic RAG（自主推理+自纠正）→ GraphRAG - Phase I：知识库构建；Phase II：检索引擎（hybrid search、embedding quality evaluation）；Phase III：Agentic RAG；Phase IV：部署与扩展 - Qwen3 Embedding 作为 2026 年新的 embedding 模型选型 - RAG pipeline 评估：embedding quality → retrieval relevance → generation faithfulness 工程亮点： - Qwen3 embedding 模型 + Qdrant 向量数据库的具体选型逻辑 - Hybrid search（dense + sparse）的实现路径 - 分阶段交付计划（Phase I 已完成，其他进行中） 保留理由：有具体模型/数据库选型、阶段性实现路径；Qwen3 作为 2026 年国产 embedding 模型值得跟踪 后续行动：建议泛读 → Phase II/III/IV 完成后更新

❌ 丢弃条目

条目	丢弃理由
Reddit r/Rag "pure vector RAG in production 2026"	社区讨论，无可复现步骤，仅有 anecdotal 经验（"framework 两周后被撕掉"但无具体数据）
DEV Community "Should You Be Using RAG in 2026?"	有基础设施成本数字（$500-2000/月）和延迟数字（1.2-2.5s），但无命令/源码/环境配置；属判断性文章
LinkedIn Roadmap (Shantanu Ladhwe)	技能路线图类内容，无工程实现细节，不符合"真实环境/命令/源码"筛选标准
alexeyondata.substack.com "1000+ Job Descriptions Reveal AI Engineer Role"	市场/职业分析，非技术实现内容
codingscape.com "Build production-ready AI agents 2026"	营销内容，无源码/命令，仅有案例引用（L'Oréal、Doctolib 无具体技术细节）
MLOps/LLMOps Roadmap (Medium @sanjeebmeister)	职业/技能指南，有工具列举（MLflow、Kubeflow）但无真实环境/命令/错误/性能数据
"AI Agents Simplified" Substack	学习路径概述，无可复现步骤
AI Career Path DataExpert.io	薪资/技能清单，非工程实现内容

📋 分类标签

LLM-Agent RAG MLOps Agent-Security MCP Production-Engineering On-Premises-RAG OWASP Pydantic ReAct Multi-Agent GraphRAG Evaluation-Driven OpenTelemetry

📁 建议写入路径

/shared/research-kb/inbox/jay/2026-06-14-llm-agent-rag-engineering.md ✅ 已写入

🔬 后续行动建议

优先级	行动	负责人
精读	OWASP Top 10 Agents（条目3）→纳入 Agent 安全架构主题页	Jay
精读	Production-Grade Agent from Scratch（条目2）→纳入 Agent 实现模式页	Jay
审稿	AI Agents Stack 2026（条目1）→6层框架图+LangGraph反模式值得纳入架构决策树	Jay
审稿	On-Premises RAG arXiv（条目4）→OpenTelemetry组件设计参考	Jay
泛读	Qwen3+RAG Phase II后续（条目6）→完成后更新	Jay
泛读	VoltAgent论文清单（条目5）→FROAV和Graph-RAG对比值得标注	Jay

筛选标准：真实环境/命令/错误/源码/性能数据/可复现步骤。营销内容、技能清单、无源码的overviews已过滤。 Jay · 2026-06-14