知识库简报 · Jay · 2026-06-17 下午 4:20 UTC+8

本次主题： CSDN LLM 推理引擎选型 · Ollama / vLLM / LMDeploy 对比 · Substack AI Agents Stack 2026 · OWASP Agent 安全工程指南

📌 分类标签

LLM-Inference Ollama vLLM LMDeploy CSDN Agent-Stack OWASP Agentic-AI Production-Engineering

一、CSDN 高价值条目

🟢 高价值（有实测数据、命令、环境、版本）

1. 大模型部署该选谁？Ollama、vLLM 和 LMDeploy，各有千秋！

来源： 53ai.com（CSDN 生态）| 2025-04-01
类型： 工程选型对比（命令 + 实测）
核心观点：
Ollama：适合个人开发者轻量原型，基于 llama.cpp，支持 CPU 推理，安装简单，ollama serve 一行启动
vLLM：适合高并发生产环境，PagedAttention + Continuous Batch，吞吐是 vLLM 的 1.8 倍（LMDeploy 官方 benchmark）
LMDeploy：TurboMind 引擎，推理性能标称 vLLM 的 1.8 倍，支持 Tensor Parallel
三者均兼容 OpenAI API 协议，便于切换
工程价值： 高——给出了具体 conda 环境创建、pip 安装、api_server 启动命令，包含 CUDA 12.4 安装路径和 ModelScope 模型下载示例
涉及版本： vLLM (CUDA 12.4)、LMDeploy python=3.8+、Ollama
建议分类： LLM 部署选型必读
链接： https://www.53ai.com/news/finetuning/2025040156278.html
可信度： 高——有实测性能数据，命令可直接复用
后续行动： 纳入推理引擎选型决策树；注意 LMDeploy 1.8x claim 需独立核验（官方 benchmark）

2. 【硬核实战】详解向量数据库 Milvus：从架构原理到 RAG 落地

来源： CSDN | 作者不详 | 2024-2025
类型： 架构原理 + SDK 实战（PyMilvus）
核心观点：
Milvus 架构：Write Engine / Read Engine / Object Storage 三层分离，计算层可独立扩缩
混合检索（Hybrid Search）：向量检索 + 元数据过滤组合，支持 Kubernetes 分布式部署
生产级运维：Milvus Attu 可视化管理、DML 语法、故障恢复机制
工程价值： 高——有完整 PyMilvus SDK 示例，包含环境搭建到生产运维全链路
涉及版本： Milvus 2.3+、PyMilvus 2.3+
建议分类： 向量数据库工程参考 / Milvus 深度阅读
链接： https://adg.csdn.net/6970a0a6437a6b40336afa01.html
可信度： 高——有架构图和代码，适合工程师参考
后续行动： 对照 Zilliz Cloud 官方文档核验 SDK API 最新版本

3. LLM大模型: RAG的langchain+向量数据库实现和评估方案

来源： 博客园 / 第七子007 | 2024
类型： RAG 评估体系 + LangChain 实战
核心观点：
MultiQueryRetriever：单 query 扩展为多角度 query，提升检索覆盖面
Contextual Compression：压缩长上下文，保留核心语义
EnsembleRetriever：密集检索（embedding）+ 稀疏检索（BM25）加权融合
RAGAS 四维评估：Faithfulness / Answer Relevance / Context Precision / Context Recall
评估驱动优化流程：Retriever 指标低 → 换 EnsembleRetriever；Faithfulness 低 → 换 LLM
工程价值： 高——给出了 RAG 质量量化评估的完整方法论，可直接落地
涉及版本： LangChain v0.2、RAGAS
建议分类： RAG 评估必读工程文
链接： https://www.cnblogs.com/theseventhson/p/18261594
可信度： 高——作者有真实实现经验，代码 GitHub 可查（blackinkkkxi/RAG_langchain）
后续行动： 纳入 RAG 系统评估 SOP；RAGAS GitHub 有完整 notebook 可参考

🟡 中等价值（有框架代码，但需独立核验）

4. 本地部署 vLLM + Qwen3：高性能大模型推理引擎

来源： CSDN | 2025-03
类型： 命令+配置文件
核心观点： Qwen3-30B-A3B 的 vLLM 量化部署命令，--quantization bitsandbytes --load_format bitsandbytes，含 GPU memory 计算和 swap space 配置
工程价值： 中——命令实用，但量化策略差异（GPTQ/AWQ/INT4）未深入解释
涉及版本： vLLM + Qwen3-30B-A3B-bnb-4bit
建议分类： vLLM 量化参考，非必读
链接： https://blog.csdn.net/2401_82469710/article/details/154728566
可信度： 中——有具体命令，环境参数可复用；量化细节需对照官方文档
后续行动： 归档 vLLM 量化启动模板；GPTQ vs AWQ vs BitsAndBytes 对比可另开专题

二、Substack 研究线索

🟢 高价值（工程洞察，来源可靠）

5. The AI Agents Stack (2026 Edition) — The AI Engineer

作者： Paolo Perrone | The AI Engineer Newsletter
发布时间： 2026-03-06
类型： 工程框架 / 技术栈分层
核心洞察：
2026 年 Agent 技术栈从 4 层扩展为 6 层：LLM → Memory → Tools → Orchestration → Safety → Regulatory
关键新增：Regulatory 层（合规性）成为独立层级，大多数团队在 Day 1 未规划此层
Safety 层包含：输入/输出过滤、工具权限最小化、Semantic Firewall
文章来源于 2024 年 11 月 Letta 的 AI agents stack diagram，已成行业默认参考
六大层级详解：每层的主流技术选型和团队常犯的错误
可信度： 高——Paolo Perrone 是 AI Engineer 社区核心作者，内容基于行业调研
评价： 框架性文章，对理解 Agent 系统全局和团队定位极有价值；与 OWASP Agent 安全内容互补
后续行动： 纳入 Agent 系统架构参考页；对照 Letta 原版博客核验层级定义
链接： https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition

6. OWASP Top 10 Agents & AI Vulnerabilities (2026 Cheat Sheet)

作者： Alex Ewerlof | Open Security Newsletter
发布时间： 2026（持续更新）
类型： 安全工程 / 实用指南
核心洞察：
覆盖 OWASP Top 10 LLM（LLM01-LLM10）和 OWASP Top 10 Agents（ASI01-ASI10）
关键工程风险：Agentic 工作负载默认循环执行，财务风险极高（"financial disaster recipe"）
指令（system prompt、function calls）和数据（用户输入、RAG 文档）拼接为单一字符串送入推理引擎 → prompt injection 攻击面扩大
实用缓解：Semantic Firewall（隔离约束 LLM 二次审核 I/O）、最小权限原则（工具权限）、Human-in-the-loop 审批
适合作为 Agent 上线前的安全 Checklist
可信度： 高——Alex Ewerlof 是 OWASP 社区活跃贡献者，内容覆盖完整
评价： 实用的 Agent 安全工程手册，建议纳入开发流程；内容比原版 OWASP 更面向工程师
后续行动： 纳入 Agent 安全工程 Checklist；对照 OWASP 官网核验最新漏洞列表
链接： https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents

7. How to Learn Agentic AI in 2026 — Rocky Bhatia

作者： Rocky Bhatia | 个人 Newsletter
发布时间： 2026
类型： 学习路径 / 工程反思
核心洞察：
批评大多数 Agentic AI 学习路径"从 demo 开始，忽略生产失败"——实际工程问题来自：RL loop、shared memory state 损坏、recursive retry 导致的天价账单
推荐学习顺序：先理解 LLM 本质限制 → 工具调用机制 → Memory 系统 → Planning/Reasoning → 多 Agent 编排
关键区分："LLM acting vs responding"——act 模式下工程问题完全改变
推荐资源：Paul Iusztin 的 Agentic AI Engineering 课程（LLM Engineer’s Handbook 作者）
可信度： 中——作者经验谈，有参考价值但非一手论文/官方文档
评价： 学习路径参考价值高，案例（天价账单、内存损坏）值得在团队内部分享
后续行动： 纳入 Agentic AI 学习路径参考；Paul Iusztin 课程内容可单独评估
链接： https://rockybhatia.substack.com/p/how-to-learn-agentic-ai-in-2026

三、本次未入选条目（低价值原因）

条目	原因
2026吃透企业级RAG全套视频教程	B站视频推广，公开课性质，无工程细节
大模型部署选Ollama还是vLLM（简单对比）	内容过于基础，无新数据
CSDN "LLM应用卡在RAG瓶颈"	标题党，snippet 无实质内容，需进一步核验

📋 建议写入路径

/shared/research-kb/inbox/jay/2026-06-17-1620-csdn-vllm-ollama-substack-agents-stack-owasp.md

📌 后续行动建议

精读： Substack AI Agents Stack 2026（Paolo Perrone）+ OWASP Agent 安全（Alex Ewerlof）→ 建议纳入知识库专题页
核验： LMDeploy 性能 claim（1.8x vs vLLM）→ 查官方 benchmark 论文/仓库
归档： RAGAS 评估体系（第七子007博客园文）+ vLLM 量化启动模板 → 纳入 RAG 工程 SOP 和推理引擎选型页
专题页更新候选： Agent System Architecture（AI Agents Stack 2026）、Agent Security Engineering（OWASP）