知识库简报 · Jay · 2026-06-17 下午 4:20 UTC+8
本次主题: CSDN LLM 推理引擎选型 · Ollama / vLLM / LMDeploy 对比 · Substack AI Agents Stack 2026 · OWASP Agent 安全工程指南
📌 分类标签
LLM-Inference Ollama vLLM LMDeploy CSDN Agent-Stack OWASP Agentic-AI Production-Engineering
一、CSDN 高价值条目
🟢 高价值(有实测数据、命令、环境、版本)
1. 大模型部署该选谁?Ollama、vLLM 和 LMDeploy,各有千秋!
- 来源: 53ai.com(CSDN 生态)| 2025-04-01
- 类型: 工程选型对比(命令 + 实测)
- 核心观点:
- Ollama:适合个人开发者轻量原型,基于 llama.cpp,支持 CPU 推理,安装简单,
ollama serve一行启动 - vLLM:适合高并发生产环境,PagedAttention + Continuous Batch,吞吐是 vLLM 的 1.8 倍(LMDeploy 官方 benchmark)
- LMDeploy:TurboMind 引擎,推理性能标称 vLLM 的 1.8 倍,支持 Tensor Parallel
- 三者均兼容 OpenAI API 协议,便于切换
- 工程价值: 高——给出了具体 conda 环境创建、pip 安装、api_server 启动命令,包含 CUDA 12.4 安装路径和 ModelScope 模型下载示例
- 涉及版本: vLLM (CUDA 12.4)、LMDeploy python=3.8+、Ollama
- 建议分类: LLM 部署选型必读
- 链接: https://www.53ai.com/news/finetuning/2025040156278.html
- 可信度: 高——有实测性能数据,命令可直接复用
- 后续行动: 纳入推理引擎选型决策树;注意 LMDeploy 1.8x claim 需独立核验(官方 benchmark)
2. 【硬核实战】详解向量数据库 Milvus:从架构原理到 RAG 落地
- 来源: CSDN | 作者不详 | 2024-2025
- 类型: 架构原理 + SDK 实战(PyMilvus)
- 核心观点:
- Milvus 架构:Write Engine / Read Engine / Object Storage 三层分离,计算层可独立扩缩
- 混合检索(Hybrid Search):向量检索 + 元数据过滤组合,支持 Kubernetes 分布式部署
- 生产级运维:Milvus Attu 可视化管理、DML 语法、故障恢复机制
- 工程价值: 高——有完整 PyMilvus SDK 示例,包含环境搭建到生产运维全链路
- 涉及版本: Milvus 2.3+、PyMilvus 2.3+
- 建议分类: 向量数据库工程参考 / Milvus 深度阅读
- 链接: https://adg.csdn.net/6970a0a6437a6b40336afa01.html
- 可信度: 高——有架构图和代码,适合工程师参考
- 后续行动: 对照 Zilliz Cloud 官方文档核验 SDK API 最新版本
3. LLM大模型: RAG的langchain+向量数据库实现和评估方案
- 来源: 博客园 / 第七子007 | 2024
- 类型: RAG 评估体系 + LangChain 实战
- 核心观点:
- MultiQueryRetriever:单 query 扩展为多角度 query,提升检索覆盖面
- Contextual Compression:压缩长上下文,保留核心语义
- EnsembleRetriever:密集检索(embedding)+ 稀疏检索(BM25)加权融合
- RAGAS 四维评估:Faithfulness / Answer Relevance / Context Precision / Context Recall
- 评估驱动优化流程:Retriever 指标低 → 换 EnsembleRetriever;Faithfulness 低 → 换 LLM
- 工程价值: 高——给出了 RAG 质量量化评估的完整方法论,可直接落地
- 涉及版本: LangChain v0.2、RAGAS
- 建议分类: RAG 评估必读工程文
- 链接: https://www.cnblogs.com/theseventhson/p/18261594
- 可信度: 高——作者有真实实现经验,代码 GitHub 可查(blackinkkkxi/RAG_langchain)
- 后续行动: 纳入 RAG 系统评估 SOP;RAGAS GitHub 有完整 notebook 可参考
🟡 中等价值(有框架代码,但需独立核验)
4. 本地部署 vLLM + Qwen3:高性能大模型推理引擎
- 来源: CSDN | 2025-03
- 类型: 命令+配置文件
- 核心观点: Qwen3-30B-A3B 的 vLLM 量化部署命令,
--quantization bitsandbytes --load_format bitsandbytes,含 GPU memory 计算和 swap space 配置 - 工程价值: 中——命令实用,但量化策略差异(GPTQ/AWQ/INT4)未深入解释
- 涉及版本: vLLM + Qwen3-30B-A3B-bnb-4bit
- 建议分类: vLLM 量化参考,非必读
- 链接: https://blog.csdn.net/2401_82469710/article/details/154728566
- 可信度: 中——有具体命令,环境参数可复用;量化细节需对照官方文档
- 后续行动: 归档 vLLM 量化启动模板;GPTQ vs AWQ vs BitsAndBytes 对比可另开专题
二、Substack 研究线索
🟢 高价值(工程洞察,来源可靠)
5. The AI Agents Stack (2026 Edition) — The AI Engineer
- 作者: Paolo Perrone | The AI Engineer Newsletter
- 发布时间: 2026-03-06
- 类型: 工程框架 / 技术栈分层
- 核心洞察:
- 2026 年 Agent 技术栈从 4 层扩展为 6 层:LLM → Memory → Tools → Orchestration → Safety → Regulatory
- 关键新增:Regulatory 层(合规性)成为独立层级,大多数团队在 Day 1 未规划此层
- Safety 层包含:输入/输出过滤、工具权限最小化、Semantic Firewall
- 文章来源于 2024 年 11 月 Letta 的 AI agents stack diagram,已成行业默认参考
- 六大层级详解:每层的主流技术选型和团队常犯的错误
- 可信度: 高——Paolo Perrone 是 AI Engineer 社区核心作者,内容基于行业调研
- 评价: 框架性文章,对理解 Agent 系统全局和团队定位极有价值;与 OWASP Agent 安全内容互补
- 后续行动: 纳入 Agent 系统架构参考页;对照 Letta 原版博客核验层级定义
- 链接: https://theaiengineer.substack.com/p/the-ai-agents-stack-2026-edition
6. OWASP Top 10 Agents & AI Vulnerabilities (2026 Cheat Sheet)
- 作者: Alex Ewerlof | Open Security Newsletter
- 发布时间: 2026(持续更新)
- 类型: 安全工程 / 实用指南
- 核心洞察:
- 覆盖 OWASP Top 10 LLM(LLM01-LLM10)和 OWASP Top 10 Agents(ASI01-ASI10)
- 关键工程风险:Agentic 工作负载默认循环执行,财务风险极高("financial disaster recipe")
- 指令(system prompt、function calls)和数据(用户输入、RAG 文档)拼接为单一字符串送入推理引擎 → prompt injection 攻击面扩大
- 实用缓解:Semantic Firewall(隔离约束 LLM 二次审核 I/O)、最小权限原则(工具权限)、Human-in-the-loop 审批
- 适合作为 Agent 上线前的安全 Checklist
- 可信度: 高——Alex Ewerlof 是 OWASP 社区活跃贡献者,内容覆盖完整
- 评价: 实用的 Agent 安全工程手册,建议纳入开发流程;内容比原版 OWASP 更面向工程师
- 后续行动: 纳入 Agent 安全工程 Checklist;对照 OWASP 官网核验最新漏洞列表
- 链接: https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents
7. How to Learn Agentic AI in 2026 — Rocky Bhatia
- 作者: Rocky Bhatia | 个人 Newsletter
- 发布时间: 2026
- 类型: 学习路径 / 工程反思
- 核心洞察:
- 批评大多数 Agentic AI 学习路径"从 demo 开始,忽略生产失败"——实际工程问题来自:RL loop、shared memory state 损坏、recursive retry 导致的天价账单
- 推荐学习顺序:先理解 LLM 本质限制 → 工具调用机制 → Memory 系统 → Planning/Reasoning → 多 Agent 编排
- 关键区分:"LLM acting vs responding"——act 模式下工程问题完全改变
- 推荐资源:Paul Iusztin 的 Agentic AI Engineering 课程(LLM Engineer’s Handbook 作者)
- 可信度: 中——作者经验谈,有参考价值但非一手论文/官方文档
- 评价: 学习路径参考价值高,案例(天价账单、内存损坏)值得在团队内部分享
- 后续行动: 纳入 Agentic AI 学习路径参考;Paul Iusztin 课程内容可单独评估
- 链接: https://rockybhatia.substack.com/p/how-to-learn-agentic-ai-in-2026
三、本次未入选条目(低价值原因)
| 条目 | 原因 |
|---|---|
| 2026吃透企业级RAG全套视频教程 | B站视频推广,公开课性质,无工程细节 |
| 大模型部署选Ollama还是vLLM(简单对比) | 内容过于基础,无新数据 |
| CSDN "LLM应用卡在RAG瓶颈" | 标题党,snippet 无实质内容,需进一步核验 |
📋 建议写入路径
/shared/research-kb/inbox/jay/2026-06-17-1620-csdn-vllm-ollama-substack-agents-stack-owasp.md
📌 后续行动建议
- 精读: Substack AI Agents Stack 2026(Paolo Perrone)+ OWASP Agent 安全(Alex Ewerlof)→ 建议纳入知识库专题页
- 核验: LMDeploy 性能 claim(1.8x vs vLLM)→ 查官方 benchmark 论文/仓库
- 归档: RAGAS 评估体系(第七子007博客园文)+ vLLM 量化启动模板 → 纳入 RAG 工程 SOP 和推理引擎选型页
- 专题页更新候选: Agent System Architecture(AI Agents Stack 2026)、Agent Security Engineering(OWASP)