← 笔记
Jay 2026-06-14

工程实践筛选报告 · 2026-06-14

筛选主题:LLM Agent / RAG / MLOps 工程实践 检索范围:Tavily 学术+工程搜索(LLM agent RAG engineering production 2026)、Substack 工程专栏、AI Agent Stack 覆盖来源:Substack (theaiengineer, OWASP Alex Ewerlöf)、arXiv、Medium、TowardsAI、Reddit r/Rag、GitHub


✅ 保留条目

1. The AI Agents Stack (2026 Edition) — Paolo Perrone / The AI Engineer

来源https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition 发布时间:2026-03-06 类型:工程架构(6层模型 + 生产经验) 可信度:⭐⭐⭐⭐ 高——独立 AI 工程垂直媒体,作者 Paolo Perrone 有工程实践背景,引用真实生产场景(LangGraph 14节点状态图案例) 核心观点: - 2024-2026三年间三件事重绘了 Agent 技术栈:MCP 标准化工具连接层、推理模型改变单步自主性、Memory 升级为一等公民 - 6层架构:Models → Protocols & Tools → Memory → Frameworks → Evaluation → Guardrails - 关键工程原则:Layer 1 模型选择(Cursor 在 Claude/GPT-4/自研模型间路由)、Layer 2 MCP 服务器连接编辑器/终端/文件系统/Layer 3 代码库感知检索 - 框架取舍:LangGraph/CrewAI 在真实生产中两周内被撕掉,核心问题是"框架抽象泄漏在关键时刻" - 决策三问:需要管理多少状态?能承受多少供应商锁定?demo 到生产差距有多大? 工程亮点: - 真实反模式:50行 OpenAI SDK + 2个 MCP 服务器替代 14节点 LangGraph 状态图 - 生产失败模式:chunk boundaries 切表格、eval sets 太干净、编排层抽象泄漏 - Cursor/Claude Code 的架构选择(自定义逻辑而非框架)作为工程决策参考 保留理由:有真实生产案例、架构权衡分析、6层分层框架,可作为 Agent 工程决策树参考 后续行动:建议审稿 → 考虑更新知识库 Agent 架构主题页


2. Building a Production-Grade AI Agent from Scratch in 2026 — Sifat Musfique / TowardsAI

来源https://pub.towardsai.net/building-a-production-grade-ai-agent-from-scratch-in-2026-a-principles-first-guide-5b21754dc201 发布时间:2026-02 类型:代码实现(Python + Pydantic + ReAct 模式) 可信度:⭐⭐⭐⭐ 中高——技术博客,有 Pydantic 验证代码片段和 ReAct orchestrator 伪代码 核心观点: - 模块三元组:Tool System (Registry) + LLM Wrapper + Orchestrator(解耦原则) - Pydantic validation 强制 LLM 输出 JSON 格式,validation 失败触发 orchestrator 重试 - System prompt 设计原则:强制工具调用、禁止内部计算、精确 JSON 输出格式约束 - 生产级 vs 原型框架差距:LangChain/LangGraph 隐藏内部逻辑,生产调试图景下调试困难 - 大型编码 Agent(Cursor/Claude Code)选择自定义逻辑而非框架的原因:速度+准确性 工程亮点: - ReAct pattern 的 Python 伪代码片段(JSON schema + tool call format) - Provider swap 示例:从 Gemini 迁移到 GPT-5 只需改 Wrapper 层 - 框架 vs 自建的核心矛盾:overhead / abstraction leakage / debugging difficulty 保留理由:有可操作的 Python 架构模式图、Pydantic validation 逻辑、工程取舍分析;适合作为 Agent 架构模式参考 后续行动:建议精读 → 可收录到 Agent 工程实现模式页


3. OWASP Top 10 Agents & AI Vulnerabilities (2026) — Alex Ewerlöf

来源https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents 发布时间:2026(持续更新) 类型:安全工程(具体漏洞 + 缓解措施) 可信度:⭐⭐⭐⭐⭐ 高——OWASP 官方项目延伸,有 MCP Top 10 beta,作者 Alex Ewerlöf 是资深安全工程师 核心观点: - LLM06 Excessive Agency:Agent 拥有 IAM role/API key 后以非预期方式使用——缓解:最小权限原则 + JIT ephemeral tokens + HITL - ASI05 Unexpected Code Execution:动态生成代码(Python/bash)的不安全执行——缓解:生成与执行分离 + ephemeral micro-VM / Wasm sandbox - ASI04 Agentic Supply Chain:MCP 服务器被注入/供应链攻击——缓解:显式 allowlist MCP 连接 + signed manifests + hash pinning 依赖 - ASI06 Memory & Context Poisoning:RAG 数据库/长期记忆被污染——缓解:租户级别内存隔离 + 数据过期 + provenance tracking - 核心安全原则:guardrails 必须在 action 前执行,不是在 output 层;Charity Majors"AI 工程是带不可靠组件的分布式系统工程"原则 工程亮点: - 具体的攻击向量描述(非泛泛而谈) - 对应 OWASP LLM Top 10 (2025) 的映射关系 - MCP Top 10 beta 作为首个面向工具连接 Agent 的安全检查清单 保留理由:2026 Agent 安全工程必读,包含可操作缓解措施;OWASP 标准延伸值得收录 后续行动:建议精读 → 建议纳入 Agent 安全架构主题页


4. AI Engineering Blueprint for On-Premises RAG — arXiv:2604.01395v1

来源https://arxiv.org/html/2604.01395v1 发布时间:2026-02 类型:学术工程论文(RAG 架构组件设计) 可信度:⭐⭐⭐⭐⭐ 高——arXiv peer-reviewed(标注为 on-premises RAG 的少数学术实现指导) 核心观点: - 动机:现有灰色文献讨论 RAG 以云为主,少有 on-premises 部署指导 - 核心组件:Loader(多数据源接口)+ Monitoring(OpenTelemetry 三支柱:logs/metrics/traces) - 与生产系统对比:RAGFlow、kotaemon、FELDM RAG Blueprint 缺乏企业级扩展组件 - 提出 Loader 灵活性设计 + Monitoring 可观测性标准 工程亮点: - OpenTelemetry 集成规范(跨所有三个支柱采集遥测数据) - 企业级 Loader 接口设计原则 - 灰色文献(博客/白皮书)与 peer-reviewed 的差距分析 保留理由:少有的 on-premises RAG 学术实现指导,OpenTelemetry 集成有参考价值 后续行动:建议审稿 → 可收录到 RAG 工程实现页面


5. VoltAgent/awesome-ai-agent-papers — GitHub

来源https://github.com/VoltAgent/awesome-ai-agent-papers 发布时间:持续更新(2026年条目为主) 类型:论文清单(带注释的 arXiv 论文导航) 可信度:⭐⭐⭐ 中——社区维护,有标注但非官方 核心条目摘录: - L-RAG:自适应 RAG,使用 entropy-based gating 跳过低不确定性场景的向量检索 - PRISMA:Multi-Agent RAG for multi-hop QA,Plan-Retrieve-Inspect-Solve-Memoize 架构 + GRPO 两阶段优化 - FROAV:RAG 可视化工作流编排 + LLM-as-Judge 评估,零基础设施代码原型验证 - Reliable Graph-RAG for Codebases:AST-derived graphs vs LLM-extracted KGs 基准对比(含 indexing cost) - VirtualEnv:Unreal Engine 5 仿真平台,用于具身 AI Agent 基准测试 保留理由:有注解的 2026 年论文导航,覆盖 RAG/Agent/Memory/Evaluation,可作为文献调研入口;FROAV 和 Graph-RAG 对比有工程参考价值 后续行动:建议泛读 → 可作为知识库论文推荐来源


6. Building a Modern RAG Agent in 2026: Qwen3 Embeddings + Qdrant — Gabriel Furnieles / TowardsAI

来源https://pub.towardsai.net/building-a-modern-rag-pipeline-in-2026-qwen3-embeddings-and-vector-database-in-qdrant-ebeca2bbe338 发布时间:2026-02-17 类型:工程实现(Qwen3 + Qdrant 全流程) 可信度:⭐⭐⭐ 中——分阶段路线图(Phase I-IV),有具体技术选型(Qwen3 embeddings、Qdrant 向量库) 核心观点: - 现代 RAG 三种架构:Standard RAG → Agentic RAG(自主推理+自纠正)→ GraphRAG - Phase I:知识库构建;Phase II:检索引擎(hybrid search、embedding quality evaluation);Phase III:Agentic RAG;Phase IV:部署与扩展 - Qwen3 Embedding 作为 2026 年新的 embedding 模型选型 - RAG pipeline 评估:embedding quality → retrieval relevance → generation faithfulness 工程亮点: - Qwen3 embedding 模型 + Qdrant 向量数据库的具体选型逻辑 - Hybrid search(dense + sparse)的实现路径 - 分阶段交付计划(Phase I 已完成,其他进行中) 保留理由:有具体模型/数据库选型、阶段性实现路径;Qwen3 作为 2026 年国产 embedding 模型值得跟踪 后续行动:建议泛读 → Phase II/III/IV 完成后更新


❌ 丢弃条目

条目 丢弃理由
Reddit r/Rag "pure vector RAG in production 2026" 社区讨论,无可复现步骤,仅有 anecdotal 经验("framework 两周后被撕掉"但无具体数据)
DEV Community "Should You Be Using RAG in 2026?" 有基础设施成本数字($500-2000/月)和延迟数字(1.2-2.5s),但无命令/源码/环境配置;属判断性文章
LinkedIn Roadmap (Shantanu Ladhwe) 技能路线图类内容,无工程实现细节,不符合"真实环境/命令/源码"筛选标准
alexeyondata.substack.com "1000+ Job Descriptions Reveal AI Engineer Role" 市场/职业分析,非技术实现内容
codingscape.com "Build production-ready AI agents 2026" 营销内容,无源码/命令,仅有案例引用(L'Oréal、Doctolib 无具体技术细节)
MLOps/LLMOps Roadmap (Medium @sanjeebmeister) 职业/技能指南,有工具列举(MLflow、Kubeflow)但无真实环境/命令/错误/性能数据
"AI Agents Simplified" Substack 学习路径概述,无可复现步骤
AI Career Path DataExpert.io 薪资/技能清单,非工程实现内容

📋 分类标签

LLM-Agent RAG MLOps Agent-Security MCP Production-Engineering On-Premises-RAG OWASP Pydantic ReAct Multi-Agent GraphRAG Evaluation-Driven OpenTelemetry


📁 建议写入路径

/shared/research-kb/inbox/jay/2026-06-14-llm-agent-rag-engineering.md ✅ 已写入


🔬 后续行动建议

优先级 行动 负责人
精读 OWASP Top 10 Agents(条目3)→纳入 Agent 安全架构主题页 Jay
精读 Production-Grade Agent from Scratch(条目2)→纳入 Agent 实现模式页 Jay
审稿 AI Agents Stack 2026(条目1)→6层框架图+LangGraph反模式值得纳入架构决策树 Jay
审稿 On-Premises RAG arXiv(条目4)→OpenTelemetry组件设计参考 Jay
泛读 Qwen3+RAG Phase II后续(条目6)→完成后更新 Jay
泛读 VoltAgent论文清单(条目5)→FROAV和Graph-RAG对比值得标注 Jay

筛选标准:真实环境/命令/错误/源码/性能数据/可复现步骤。营销内容、技能清单、无源码的overviews已过滤。 Jay · 2026-06-14