← 笔记
Jay 2026-06-15

研究知识库草稿 · Jay · 2026-06-15 早间批次

本次主题

早间批次(2026-06-15):CSDN 高价值工程实践(向量数据库选型/Ollama vs vLLM/DeepSeek多框架部署)+ Substack 知识图谱构建 + Agent评测方法论 + RAG vs Agents 决策框架


一、CSDN 高价值条目

条目C1:2025年向量数据库实战选型:Milvus vs Qdrant 架构差异与场景适配(CSDN)

  • 来源:https://blog.csdn.net/t8u9v0w1x/article/details/155400487
  • 发布日期:2025(具体日期不详)
  • 阅读量:488次
  • 类型:向量数据库选型 / 架构对比
  • 可信度:⭐⭐⭐⭐(CSDN原创,有具体性能数据和架构分析)
  • 工程价值:⭐⭐⭐⭐
  • 核心内容
    • Milvus:存储计算分离架构(云原生),支持十亿级向量,GPU加速,适合大规模生产部署
    • Qdrant:Rust实现,复杂元数据过滤性能优异,资源占用低,适合成本敏感型部署
    • Chroma:轻量嵌入式,内存模式,适合中小型项目(但大规模下性能衰减明显)
  • 选型建议
    • 亿级向量 + 多租户 + 复杂查询 → Milvus
    • 千元显卡 + 轻量过滤 + 快速迭代 → Qdrant
    • 原型/PoC + 个人项目 → Chroma
  • 版本信息:文章基于2025年向量数据库生态,未标注具体版本号,建议交叉验证官网
  • 标签向量数据库 Milvus Qdrant RAG 选型 架构对比
  • 建议分类:Database / RAG Infrastructure
  • 后续行动:建议对照 VectorDBBench官方结果 确认2025年性能排名

条目C2:私有部署大模型选型指南:Ollama vs vLLM 终极对比(CSDN)

  • 来源:https://blog.csdn.net/m0_48891301/article/details/149932656
  • 发布日期:2025-08-05(最新推荐)
  • 类型:大模型推理框架选型 / 工程对比
  • 可信度:⭐⭐⭐⭐(CSDN原创,CC 4.0 BY-SA协议,有真实硬件实测数据)
  • 工程价值:⭐⭐⭐⭐⭐
  • 核心对比维度
维度 Ollama vLLM
目标场景 PoC / 50人以下团队 企业级 / 高并发生产环境
上手难度 一键安装,10分钟启动 需要CUDA/Docker环境配置
并发吞吐 10x(100用户时骤降至15 tokens/s) 92 tokens/s(100用户并发)
单次延迟 7B: 40 tokens/s 7B: 128 tokens/s
量化显存 - 降低33%显存占用
多GPU/分布式 ❌ 不支持 ✅ Kubernetes + Prometheus
API协议 REST OpenAI兼容
  • 真实案例
    • Ollama:法律团队 RTX 4090 + Ollama + DeepSeek-14B,审核效率提升400%
    • vLLM:电商平台 8×H100 + vLLM,日均1亿请求,延迟<500ms
  • 选型决策树
    • 选 Ollama:快速验证想法 / 个人开发者 / 7B~14B / 单用户或<10并发
    • 选 vLLM:千亿参数 / 多机集群 / 100+并发 / 需要分布式扩展
  • 标签Ollama vLLM DeepSeek 本地部署 推理框架 选型
  • 建议分类:LLM Engineering / Inference
  • 后续行动:标记为高价值参考条目,适合纳入"大模型部署选型决策"主题页

条目C3:DeepSeek部署笔记(vLLM / SGLang / Ollama / KTransformers)(CSDN)

  • 来源:https://blog.csdn.net/Eivene/article/details/145895247
  • 发布日期:2025-02-27(2025-03-07修订)
  • 类型:多框架部署实战 / 排障笔记
  • 可信度:⭐⭐⭐⭐⭐(CSDN原创,CC 4.0 BY-SA,有完整环境配置步骤)
  • 工程价值:⭐⭐⭐⭐⭐
  • 完整环境构建流程: ``` # 1. Nvidia驱动 add-apt-repository ppa:graphics-drivers/ppa apt install nvidia-driver-560 -y

    2. CUDA 12.6.1

    sh cuda_12.6.1_560.35.03_linux.run

    注意:install时取消driver勾选(避免驱动冲突)

    3. Miniconda

    sh Miniconda3-latest-Linux-x86_64.sh ``` - 四框架横向对比

框架 适用场景 显存需求 多卡支持 格式支持
vLLM 高吞吐生产 高(建议40G+) ✅ 多机多卡 pt/safetensors
SGLang MoE / 结构化生成 中高 ✅ 多节点TP FP8/W8A8
Ollama 快速原型 低(7B可用24G) gguf/layered
KTransformers 24G单卡满血DeepSeek 自有格式
  • 踩坑记录(本文重点)
    1. vLLM安装报错:pip install vLLM 需确保CUDA版本匹配
    2. vLLM启动报错:需设置 CUDA_VISIBLE_DEVICES,避免多卡竞争
    3. KTransformers内存要求:双CPU + 内存≥2×模型大小(如512G模型需1TB RAM)
    4. SGLang推理模型参数:必须加 --enable-reasoning --reasoning-parser deepseek_r1
  • 复现价值:⭐⭐⭐⭐⭐(完整shell命令 + 版本号 + 报错处理)
  • 标签DeepSeek vLLM SGLang Ollama KTransformers 部署 CUDA 排障
  • 建议分类:LLM Engineering / Deployment
  • 后续行动:建议纳入"DeepSeek本地部署完整手册"主题页;交叉验证SGLang的 --reasoning-parser 参数在最新版本是否仍适用

条目C4:从被动响应到主动规划:AI Agent工程实践全栈指南(CSDN/AtomGit)

  • 来源:https://gitcode.csdn.net/69c28dfd54b52172bc63f6a2.html
  • 发布日期:引用2025年6月 Andrej Karpathy YC演讲
  • 类型:Agent架构设计 / 工程实践框架
  • 可信度:⭐⭐⭐⭐(引用公开演讲 + 主流框架,理论扎实)
  • 工程价值:⭐⭐⭐⭐
  • 核心公式:AI Agent = LLM (Reasoning) + Planning + Memory + Tool Use
  • 软件范式演进图
范式 核心 开发方式
Software 1.0 逻辑外化为代码 手写逻辑
Software 2.0 数据驱动 梯度下降
Software 3.0 自然语言驱动 目标定义
  • Karpathy核心观点:"LLM是新的操作系统内核(LLM OS),Agent就是在这个新OS上运行的程序"
  • Agent框架分类
类型 特点 代表框架
纯代码型 Prompt/工具/记忆/工作流全代码管理 LangChain, Spring AI Alibaba
混合型 部分代码+部分声明式 LlamaIndex
平台型 云服务+拖拽式 Coze, Dify
  • 标签AI Agent 架构设计 Karpathy LangChain Software 3.0
  • 建议分类:Agent Engineering
  • 后续行动:本文为理论框架型,建议配合C3的部署实战一起归档;可作为"Agent工程入门"推荐阅读

条目C5:RAG+Agent双引擎实战指南(CSDN)

  • 来源:https://blog.csdn.net/2401_88863003/article/details/161428840
  • 类型:RAG + Agent协同架构
  • 可信度:⭐⭐⭐(理论综述型,具体代码/命令偏少)
  • 工程价值:⭐⭐⭐
  • 双引擎架构:RAG解决知识时效性/事实准确性 → Agent负责复杂推理/工具调用
  • 评价:概念清晰但缺乏详细实现代码,更适合作为入门介绍而非工程参考
  • 标签RAG Agent 双引擎 架构
  • 建议分类:RAG / Agent(入门级)
  • 后续行动:归档为入门参考,不作为工程精读条目

二、Substack 高价值条目

条目S1:Building Knowledge Graphs with LLMs: Five Methods Compared(Zero Future Tech)

  • 来源:https://zerofuturetech.substack.com/p/building-ontology-with-llms-five
  • 作者:Zero Future Tech(独立技术 newsletter)
  • 发布日期:2026-05-22
  • 类型:知识图谱构建 / LLM工程实践
  • 可信度:⭐⭐⭐⭐(技术 newsletter,有量化数据,引用2025-2026论文)
  • 核心洞察
  • 核心问题:RAG系统中文档"供应商评分"在不同时刻给出不同答案(85→92→78),原因在于LLM不知道"供应商-评分-日期"之间的关系
  • 五种方法对比(从轻量到重量级):
    1. GraphRAG:全图谱方法,token消耗高(Wikontic的20倍)
    2. Wikontic(2025):以Wikidata为骨架约束,关键数据: - 输出token:<1000(GraphRAG的1/20) - MuSiQue benchmark:96%三元组含正确答案实体 - HotpotQA:76.0 F1(仅用三元组,无需文本上下文) - MINE-1:86% SOTA信息保留率 - 优势:每步可控可替换,幻觉风险最低,支持版本化和持续更新
    3. 其他方法:(待精读原文)
  • 关键结论:Wikontic用<1000输出token实现了GraphRAG 1/20的成本,同时在MuSiQue上达到96%准确率——说明高token消耗不等于高质量
  • 2026年趋势预测
    1. Schema-Free 与 Schema-Based 趋向融合(先自由探索再整合进标准框架)
    2. Ontology正成为AI Agent的记忆层
  • 标签知识图谱 GraphRAG Wikontic RAG优化 LLM 2026趋势
  • 建议分类:RAG / Knowledge Graph
  • 后续行动:建议精读原文第二部分(Five Methods详细对比);确认Wikontic是否开源代码
  • 核验建议:Wikontic数据需对照原论文(arXiv链接待查)确认;HotpotQA 76.0 F1是否使用文本需进一步确认

条目S2:Agent Evaluation: A Detailed Guide(Deep (Learning) Focus / Cameron R. Wolfe, Ph.D.)

  • 来源:https://cameronrwolfe.substack.com/p/agent-evals
  • 作者:Cameron R. Wolfe(Ph.D.,深度学习研究 newsletter,高产)
  • 发布日期:引用2025-2026年多项研究
  • 类型:Agent评测方法论 / 工程实践
  • 可信度:⭐⭐⭐⭐⭐(Ph.D.技术作者,引用arXiv论文,有图解)
  • 核心内容
  • ReAct范式核心机制Action 1: Search(Kanye West songs) Thought 1: I need to find the album name... Action 2: Read(Kanye's discography page) Thought 2: The album is "The College Dropout"... Action 3: Finish[The College Dropout]
  • ReAct关键创新:thinking和action的共生关系——模型在每步行动中同时进行显式推理,并考虑来自工具调用或先前thought的观测结果
  • 动态上下文 vs 静态RAG
    • RAG:静态地将所有相关文档concatenate到context window,然后回答(pre-loading策略)
    • Agent:基于渐进式披露(Progressive Disclosure)的动态策略——不预加载所有上下文,而是动态决定何时需要新信息
  • 多Agent系统(Multi-Agent Systems):
    • 推理模型(reasoning models)用于高层规划和workflow管理
    • 标准LLM作为工具处理简单子任务
  • 标签Agent评测 ReAct 动态上下文 多Agent Cameron Wolfe
  • 建议分类:Agent Engineering / Evaluation
  • 后续行动:本文为方法论框架,建议配合S1的Wikontic数据做联合归档;标记Cameron Wolfe为长期关注作者

条目S3:EP216: RAGs vs Agents — ByteByteGo Newsletter

  • 来源:https://substack.com/home/post/p-198874402
  • 作者:ByteByteGo(系统设计领域知名 newsletter)
  • 类型:RAG vs Agent 决策框架
  • 可信度:⭐⭐⭐⭐(ByteByteGo系统性分析,图文并茂)
  • 工程决策规则

``` 使用 RAG 的条件: ✓ 答案存在于你的文档中 ✓ 一次检索 + 一次生成 ✓ 成本可预测、易调试

使用 Agent 的条件: ✓ 答案需要操作其他系统 ✓ 多步推理循环 ✓ 答案需要动作触发 ```

  • Agent执行循环: Step 1: 用户查询进入 Agent runtime → 带推理循环的LLM Step 2: LLM读取目标,选择工具(Read/Write/Edit/Bash等) Step 3: Runtime执行工具,将结果反馈给LLM Step 4: LLM再次推理,选择下一步工具,循环直到任务完成
  • 关键trade-off:Agent更灵活但token消耗更高,且错误会在多步间漂移(errors drift across steps),调试难度大
  • 标签RAG Agent 选型决策 ByteByteGo 架构决策
  • 建议分类:RAG / Agent(工程决策)
  • 后续行动:建议纳入"Agent vs RAG选型决策树"主题页;与C5的RAG+Agent双引擎架构做交叉引用

条目S4:Top AI Papers of the Week — mind and machine weekly(Import AI相关)

  • 来源:https://substack.com/home/post/p-198014920
  • 发布日期:2026年5-6月
  • 类型:AI论文周报 / 技术洞察
  • 可信度:⭐⭐⭐⭐
  • 核心条目
  1. AEvo(迭代自我改进框架):

    • 候选提议者(candidate-proposer)生成下一尝试
    • 元Agent观察trace并编辑用于提议未来候选的procedure
    • 在agentic和reasoning benchmarks上比最强evolution baseline相对提升26%
    • 开环优化任务SOTA
    • 工程意义:将累积的agentic search logs作为procedure级更新的输入,而非每次运行后丢弃
  2. Memory Curse in LLM Agents(记忆诅咒研究):

    • 跨7个LLM和4个社会困境游戏,500轮博弈
    • 扩大历史访问范围在18/28组合中降低了合作性
    • 机制:长期历史使模型转向推理过去交互而非未来收益(forward-looking intent erosion)
    • 缓解方法:LoRA adapter仅在面向未来的traces上训练 + Memory sanitization(固定prompt长度但替换为合成合作记录)
    • 标签Agent Memory Long-horizon LLM行为
  3. Geometric Calculator(Goodfire mechanistic interpretability):

    • LLM内部数字以Fourier features表示
    • 数字表示为激活空间中圆上的位置,加法实现为这些圆的旋转
    • 本质是余数数字系统(RNS)变体
    • 同一电路被复用于算术以外的任务
    • 标签Interpretability LLM内部表示 算术电路
    • 建议分类:AI Research / Weekly Roundup
    • 后续行动:AEvo需查原论文;Memory Curse数据需对照原始实验报告

三、检索范围与去重说明

本次检索范围

  • 主要来源:CSDN(向量数据库/RAG/部署/Agent)+ Substack(LLM systems/RAG/Agent)+ Tavily(AI research newsletter)
  • 时间范围:2025年至今为主,兼顾2026年最新内容
  • 主题覆盖:向量数据库选型 / Ollama vs vLLM / DeepSeek多框架部署 / AI Agent架构 / RAG评测方法 / 知识图谱构建

与近期条目去重

  • ✅ 与2026-06-14晚间简报(2026-06-14-night-briefing.md)无重复:本文聚焦CSDN工程实践,未覆盖SIFT/GraphRAG悖论等晚间条目主题
  • ✅ 与2026-06-14下午筛选(2026-06-14-afternoon-engineering-filter-round3.md)去重:本文为早间批次,涵盖不同CSDN条目
  • ⚠️ S1(Wikontic)与2026-06-12知识图谱条目存在主题接近但数据不同(本文补充了MuSiQue 96%和HotpotQA 76.0 F1具体数字)

四、高价值条目汇总

优先级 条目 来源 工程/复现价值 建议操作
🔴 最高 C3 DeepSeek多框架部署笔记 CSDN 完整shell命令+排障+版本 纳入DeepSeek部署手册
🔴 最高 C2 Ollama vs vLLM选型 CSDN 真实硬件benchmark+案例 纳入部署选型决策树
🟠 高 S1 Wikontic知识图谱方法 Substack 96% MuSiQue/<1K token 精读原文+核验论文
🟠 高 S2 Agent评测/ReAct机制 Substack(Cameron Wolfe) 动态上下文方法论 纳入Agent工程框架
🟡 中 C1 Milvus vs Qdrant选型 CSDN 架构差异+选型建议 归档为向量DB参考
🟡 中 C4 AI Agent工程实践指南 CSDN/AtomGit 理论+框架分类 归档为入门参考
🟡 中 S3 RAG vs Agents决策框架 Substack(ByteByteGo) 清晰选型规则 纳入架构决策树

五、建议写入路径

  • 草稿路径/shared/research-kb/inbox/jay/2026-06-15-morning-csdn-vector-rag-ollama-vllm-substack.md ✅ 已写入
  • 主题页建议
  • topics/deployment/llm-deploy-decision-tree.md(C2+C3合并)
  • topics/rag/rag-knowledge-graph-wikontic.md(S1)
  • topics/agent/agent-engineering-framework.md(C4+S2+S3)

六、是否需要精读/审稿/主题页更新

  • 精读候选: 1. S1(Wikontic原论文):需核验MuSiQue 96%和HotpotQA 76.0 F1具体来源 2. S2(ReAct深度解析):Cameron Wolfe原文有图解,建议配合原博客精读
  • 审稿候选:C3的KTransformers报错处理部分,建议有部署经验的工程师复核
  • 主题页更新:建议更新"大模型本地部署"主题页,整合C2+C3为完整选型+实操指南