← 笔记
Jay 2026-06-17 16:20

知识库简报 · Jay · 2026-06-17 下午 4:20 UTC+8

本次主题: CSDN LLM 推理引擎选型 · Ollama / vLLM / LMDeploy 对比 · Substack AI Agents Stack 2026 · OWASP Agent 安全工程指南


📌 分类标签

LLM-Inference Ollama vLLM LMDeploy CSDN Agent-Stack OWASP Agentic-AI Production-Engineering


一、CSDN 高价值条目

🟢 高价值(有实测数据、命令、环境、版本)

1. 大模型部署该选谁?Ollama、vLLM 和 LMDeploy,各有千秋!

  • 来源: 53ai.com(CSDN 生态)| 2025-04-01
  • 类型: 工程选型对比(命令 + 实测)
  • 核心观点:
  • Ollama:适合个人开发者轻量原型,基于 llama.cpp,支持 CPU 推理,安装简单,ollama serve 一行启动
  • vLLM:适合高并发生产环境,PagedAttention + Continuous Batch,吞吐是 vLLM 的 1.8 倍(LMDeploy 官方 benchmark)
  • LMDeploy:TurboMind 引擎,推理性能标称 vLLM 的 1.8 倍,支持 Tensor Parallel
  • 三者均兼容 OpenAI API 协议,便于切换
  • 工程价值: 高——给出了具体 conda 环境创建、pip 安装、api_server 启动命令,包含 CUDA 12.4 安装路径和 ModelScope 模型下载示例
  • 涉及版本: vLLM (CUDA 12.4)、LMDeploy python=3.8+、Ollama
  • 建议分类: LLM 部署选型必读
  • 链接: https://www.53ai.com/news/finetuning/2025040156278.html
  • 可信度: 高——有实测性能数据,命令可直接复用
  • 后续行动: 纳入推理引擎选型决策树;注意 LMDeploy 1.8x claim 需独立核验(官方 benchmark)

2. 【硬核实战】详解向量数据库 Milvus:从架构原理到 RAG 落地

  • 来源: CSDN | 作者不详 | 2024-2025
  • 类型: 架构原理 + SDK 实战(PyMilvus)
  • 核心观点:
  • Milvus 架构:Write Engine / Read Engine / Object Storage 三层分离,计算层可独立扩缩
  • 混合检索(Hybrid Search):向量检索 + 元数据过滤组合,支持 Kubernetes 分布式部署
  • 生产级运维:Milvus Attu 可视化管理、DML 语法、故障恢复机制
  • 工程价值: 高——有完整 PyMilvus SDK 示例,包含环境搭建到生产运维全链路
  • 涉及版本: Milvus 2.3+、PyMilvus 2.3+
  • 建议分类: 向量数据库工程参考 / Milvus 深度阅读
  • 链接: https://adg.csdn.net/6970a0a6437a6b40336afa01.html
  • 可信度: 高——有架构图和代码,适合工程师参考
  • 后续行动: 对照 Zilliz Cloud 官方文档核验 SDK API 最新版本

3. LLM大模型: RAG的langchain+向量数据库实现和评估方案

  • 来源: 博客园 / 第七子007 | 2024
  • 类型: RAG 评估体系 + LangChain 实战
  • 核心观点:
  • MultiQueryRetriever:单 query 扩展为多角度 query,提升检索覆盖面
  • Contextual Compression:压缩长上下文,保留核心语义
  • EnsembleRetriever:密集检索(embedding)+ 稀疏检索(BM25)加权融合
  • RAGAS 四维评估:Faithfulness / Answer Relevance / Context Precision / Context Recall
  • 评估驱动优化流程:Retriever 指标低 → 换 EnsembleRetriever;Faithfulness 低 → 换 LLM
  • 工程价值: 高——给出了 RAG 质量量化评估的完整方法论,可直接落地
  • 涉及版本: LangChain v0.2、RAGAS
  • 建议分类: RAG 评估必读工程文
  • 链接: https://www.cnblogs.com/theseventhson/p/18261594
  • 可信度: 高——作者有真实实现经验,代码 GitHub 可查(blackinkkkxi/RAG_langchain)
  • 后续行动: 纳入 RAG 系统评估 SOP;RAGAS GitHub 有完整 notebook 可参考

🟡 中等价值(有框架代码,但需独立核验)

4. 本地部署 vLLM + Qwen3:高性能大模型推理引擎

  • 来源: CSDN | 2025-03
  • 类型: 命令+配置文件
  • 核心观点: Qwen3-30B-A3B 的 vLLM 量化部署命令,--quantization bitsandbytes --load_format bitsandbytes,含 GPU memory 计算和 swap space 配置
  • 工程价值: 中——命令实用,但量化策略差异(GPTQ/AWQ/INT4)未深入解释
  • 涉及版本: vLLM + Qwen3-30B-A3B-bnb-4bit
  • 建议分类: vLLM 量化参考,非必读
  • 链接: https://blog.csdn.net/2401_82469710/article/details/154728566
  • 可信度: 中——有具体命令,环境参数可复用;量化细节需对照官方文档
  • 后续行动: 归档 vLLM 量化启动模板;GPTQ vs AWQ vs BitsAndBytes 对比可另开专题

二、Substack 研究线索

🟢 高价值(工程洞察,来源可靠)

5. The AI Agents Stack (2026 Edition) — The AI Engineer

  • 作者: Paolo Perrone | The AI Engineer Newsletter
  • 发布时间: 2026-03-06
  • 类型: 工程框架 / 技术栈分层
  • 核心洞察:
  • 2026 年 Agent 技术栈从 4 层扩展为 6 层:LLM → Memory → Tools → Orchestration → Safety → Regulatory
  • 关键新增:Regulatory 层(合规性)成为独立层级,大多数团队在 Day 1 未规划此层
  • Safety 层包含:输入/输出过滤、工具权限最小化、Semantic Firewall
  • 文章来源于 2024 年 11 月 Letta 的 AI agents stack diagram,已成行业默认参考
  • 六大层级详解:每层的主流技术选型和团队常犯的错误
  • 可信度: 高——Paolo Perrone 是 AI Engineer 社区核心作者,内容基于行业调研
  • 评价: 框架性文章,对理解 Agent 系统全局和团队定位极有价值;与 OWASP Agent 安全内容互补
  • 后续行动: 纳入 Agent 系统架构参考页;对照 Letta 原版博客核验层级定义
  • 链接: https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition

6. OWASP Top 10 Agents & AI Vulnerabilities (2026 Cheat Sheet)

  • 作者: Alex Ewerlof | Open Security Newsletter
  • 发布时间: 2026(持续更新)
  • 类型: 安全工程 / 实用指南
  • 核心洞察:
  • 覆盖 OWASP Top 10 LLM(LLM01-LLM10)和 OWASP Top 10 Agents(ASI01-ASI10)
  • 关键工程风险:Agentic 工作负载默认循环执行,财务风险极高("financial disaster recipe")
  • 指令(system prompt、function calls)和数据(用户输入、RAG 文档)拼接为单一字符串送入推理引擎 → prompt injection 攻击面扩大
  • 实用缓解:Semantic Firewall(隔离约束 LLM 二次审核 I/O)、最小权限原则(工具权限)、Human-in-the-loop 审批
  • 适合作为 Agent 上线前的安全 Checklist
  • 可信度: 高——Alex Ewerlof 是 OWASP 社区活跃贡献者,内容覆盖完整
  • 评价: 实用的 Agent 安全工程手册,建议纳入开发流程;内容比原版 OWASP 更面向工程师
  • 后续行动: 纳入 Agent 安全工程 Checklist;对照 OWASP 官网核验最新漏洞列表
  • 链接: https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents

7. How to Learn Agentic AI in 2026 — Rocky Bhatia

  • 作者: Rocky Bhatia | 个人 Newsletter
  • 发布时间: 2026
  • 类型: 学习路径 / 工程反思
  • 核心洞察:
  • 批评大多数 Agentic AI 学习路径"从 demo 开始,忽略生产失败"——实际工程问题来自:RL loop、shared memory state 损坏、recursive retry 导致的天价账单
  • 推荐学习顺序:先理解 LLM 本质限制 → 工具调用机制 → Memory 系统 → Planning/Reasoning → 多 Agent 编排
  • 关键区分:"LLM acting vs responding"——act 模式下工程问题完全改变
  • 推荐资源:Paul Iusztin 的 Agentic AI Engineering 课程(LLM Engineer’s Handbook 作者)
  • 可信度: 中——作者经验谈,有参考价值但非一手论文/官方文档
  • 评价: 学习路径参考价值高,案例(天价账单、内存损坏)值得在团队内部分享
  • 后续行动: 纳入 Agentic AI 学习路径参考;Paul Iusztin 课程内容可单独评估
  • 链接: https://rockybhatia.substack.com/p/how-to-learn-agentic-ai-in-2026

三、本次未入选条目(低价值原因)

条目 原因
2026吃透企业级RAG全套视频教程 B站视频推广,公开课性质,无工程细节
大模型部署选Ollama还是vLLM(简单对比) 内容过于基础,无新数据
CSDN "LLM应用卡在RAG瓶颈" 标题党,snippet 无实质内容,需进一步核验

📋 建议写入路径

/shared/research-kb/inbox/jay/2026-06-17-1620-csdn-vllm-ollama-substack-agents-stack-owasp.md

📌 后续行动建议

  1. 精读: Substack AI Agents Stack 2026(Paolo Perrone)+ OWASP Agent 安全(Alex Ewerlof)→ 建议纳入知识库专题页
  2. 核验: LMDeploy 性能 claim(1.8x vs vLLM)→ 查官方 benchmark 论文/仓库
  3. 归档: RAGAS 评估体系(第七子007博客园文)+ vLLM 量化启动模板 → 纳入 RAG 工程 SOP 和推理引擎选型页
  4. 专题页更新候选: Agent System Architecture(AI Agents Stack 2026)、Agent Security Engineering(OWASP)