研究知识库草稿 · Jay · 2026-06-15 早间批次
本次主题
早间批次(2026-06-15):CSDN 高价值工程实践(向量数据库选型/Ollama vs vLLM/DeepSeek多框架部署)+ Substack 知识图谱构建 + Agent评测方法论 + RAG vs Agents 决策框架
一、CSDN 高价值条目
条目C1:2025年向量数据库实战选型:Milvus vs Qdrant 架构差异与场景适配(CSDN)
- 来源:https://blog.csdn.net/t8u9v0w1x/article/details/155400487
- 发布日期:2025(具体日期不详)
- 阅读量:488次
- 类型:向量数据库选型 / 架构对比
- 可信度:⭐⭐⭐⭐(CSDN原创,有具体性能数据和架构分析)
- 工程价值:⭐⭐⭐⭐
- 核心内容:
- Milvus:存储计算分离架构(云原生),支持十亿级向量,GPU加速,适合大规模生产部署
- Qdrant:Rust实现,复杂元数据过滤性能优异,资源占用低,适合成本敏感型部署
- Chroma:轻量嵌入式,内存模式,适合中小型项目(但大规模下性能衰减明显)
- 选型建议:
- 亿级向量 + 多租户 + 复杂查询 → Milvus
- 千元显卡 + 轻量过滤 + 快速迭代 → Qdrant
- 原型/PoC + 个人项目 → Chroma
- 版本信息:文章基于2025年向量数据库生态,未标注具体版本号,建议交叉验证官网
- 标签:
向量数据库MilvusQdrantRAG选型架构对比 - 建议分类:Database / RAG Infrastructure
- 后续行动:建议对照 VectorDBBench官方结果 确认2025年性能排名
条目C2:私有部署大模型选型指南:Ollama vs vLLM 终极对比(CSDN)
- 来源:https://blog.csdn.net/m0_48891301/article/details/149932656
- 发布日期:2025-08-05(最新推荐)
- 类型:大模型推理框架选型 / 工程对比
- 可信度:⭐⭐⭐⭐(CSDN原创,CC 4.0 BY-SA协议,有真实硬件实测数据)
- 工程价值:⭐⭐⭐⭐⭐
- 核心对比维度:
| 维度 | Ollama | vLLM |
|---|---|---|
| 目标场景 | PoC / 50人以下团队 | 企业级 / 高并发生产环境 |
| 上手难度 | 一键安装,10分钟启动 | 需要CUDA/Docker环境配置 |
| 并发吞吐 | 10x(100用户时骤降至15 tokens/s) | 92 tokens/s(100用户并发) |
| 单次延迟 | 7B: 40 tokens/s | 7B: 128 tokens/s |
| 量化显存 | - | 降低33%显存占用 |
| 多GPU/分布式 | ❌ 不支持 | ✅ Kubernetes + Prometheus |
| API协议 | REST | OpenAI兼容 |
- 真实案例:
- Ollama:法律团队 RTX 4090 + Ollama + DeepSeek-14B,审核效率提升400%
- vLLM:电商平台 8×H100 + vLLM,日均1亿请求,延迟<500ms
- 选型决策树:
- 选 Ollama:快速验证想法 / 个人开发者 / 7B~14B / 单用户或<10并发
- 选 vLLM:千亿参数 / 多机集群 / 100+并发 / 需要分布式扩展
- 标签:
OllamavLLMDeepSeek本地部署推理框架选型 - 建议分类:LLM Engineering / Inference
- 后续行动:标记为高价值参考条目,适合纳入"大模型部署选型决策"主题页
条目C3:DeepSeek部署笔记(vLLM / SGLang / Ollama / KTransformers)(CSDN)
- 来源:https://blog.csdn.net/Eivene/article/details/145895247
- 发布日期:2025-02-27(2025-03-07修订)
- 类型:多框架部署实战 / 排障笔记
- 可信度:⭐⭐⭐⭐⭐(CSDN原创,CC 4.0 BY-SA,有完整环境配置步骤)
- 工程价值:⭐⭐⭐⭐⭐
-
完整环境构建流程: ``` # 1. Nvidia驱动 add-apt-repository ppa:graphics-drivers/ppa apt install nvidia-driver-560 -y
2. CUDA 12.6.1
sh cuda_12.6.1_560.35.03_linux.run
注意:install时取消driver勾选(避免驱动冲突)
3. Miniconda
sh Miniconda3-latest-Linux-x86_64.sh ``` - 四框架横向对比:
| 框架 | 适用场景 | 显存需求 | 多卡支持 | 格式支持 |
|---|---|---|---|---|
| vLLM | 高吞吐生产 | 高(建议40G+) | ✅ 多机多卡 | pt/safetensors |
| SGLang | MoE / 结构化生成 | 中高 | ✅ 多节点TP | FP8/W8A8 |
| Ollama | 快速原型 | 低(7B可用24G) | ❌ | gguf/layered |
| KTransformers | 24G单卡满血DeepSeek | 低 | ❌ | 自有格式 |
- 踩坑记录(本文重点):
- vLLM安装报错:pip install vLLM 需确保CUDA版本匹配
- vLLM启动报错:需设置
CUDA_VISIBLE_DEVICES,避免多卡竞争 - KTransformers内存要求:双CPU + 内存≥2×模型大小(如512G模型需1TB RAM)
- SGLang推理模型参数:必须加
--enable-reasoning --reasoning-parser deepseek_r1
- 复现价值:⭐⭐⭐⭐⭐(完整shell命令 + 版本号 + 报错处理)
- 标签:
DeepSeekvLLMSGLangOllamaKTransformers部署CUDA排障 - 建议分类:LLM Engineering / Deployment
- 后续行动:建议纳入"DeepSeek本地部署完整手册"主题页;交叉验证SGLang的
--reasoning-parser参数在最新版本是否仍适用
条目C4:从被动响应到主动规划:AI Agent工程实践全栈指南(CSDN/AtomGit)
- 来源:https://gitcode.csdn.net/69c28dfd54b52172bc63f6a2.html
- 发布日期:引用2025年6月 Andrej Karpathy YC演讲
- 类型:Agent架构设计 / 工程实践框架
- 可信度:⭐⭐⭐⭐(引用公开演讲 + 主流框架,理论扎实)
- 工程价值:⭐⭐⭐⭐
- 核心公式:AI Agent = LLM (Reasoning) + Planning + Memory + Tool Use
- 软件范式演进图:
| 范式 | 核心 | 开发方式 |
|---|---|---|
| Software 1.0 | 逻辑外化为代码 | 手写逻辑 |
| Software 2.0 | 数据驱动 | 梯度下降 |
| Software 3.0 | 自然语言驱动 | 目标定义 |
- Karpathy核心观点:"LLM是新的操作系统内核(LLM OS),Agent就是在这个新OS上运行的程序"
- Agent框架分类:
| 类型 | 特点 | 代表框架 |
|---|---|---|
| 纯代码型 | Prompt/工具/记忆/工作流全代码管理 | LangChain, Spring AI Alibaba |
| 混合型 | 部分代码+部分声明式 | LlamaIndex |
| 平台型 | 云服务+拖拽式 | Coze, Dify |
- 标签:
AI Agent架构设计KarpathyLangChainSoftware 3.0 - 建议分类:Agent Engineering
- 后续行动:本文为理论框架型,建议配合C3的部署实战一起归档;可作为"Agent工程入门"推荐阅读
条目C5:RAG+Agent双引擎实战指南(CSDN)
- 来源:https://blog.csdn.net/2401_88863003/article/details/161428840
- 类型:RAG + Agent协同架构
- 可信度:⭐⭐⭐(理论综述型,具体代码/命令偏少)
- 工程价值:⭐⭐⭐
- 双引擎架构:RAG解决知识时效性/事实准确性 → Agent负责复杂推理/工具调用
- 评价:概念清晰但缺乏详细实现代码,更适合作为入门介绍而非工程参考
- 标签:
RAGAgent双引擎架构 - 建议分类:RAG / Agent(入门级)
- 后续行动:归档为入门参考,不作为工程精读条目
二、Substack 高价值条目
条目S1:Building Knowledge Graphs with LLMs: Five Methods Compared(Zero Future Tech)
- 来源:https://zerofuturetech.substack.com/p/building-ontology-with-llms-five
- 作者:Zero Future Tech(独立技术 newsletter)
- 发布日期:2026-05-22
- 类型:知识图谱构建 / LLM工程实践
- 可信度:⭐⭐⭐⭐(技术 newsletter,有量化数据,引用2025-2026论文)
- 核心洞察:
- 核心问题:RAG系统中文档"供应商评分"在不同时刻给出不同答案(85→92→78),原因在于LLM不知道"供应商-评分-日期"之间的关系
- 五种方法对比(从轻量到重量级):
- GraphRAG:全图谱方法,token消耗高(Wikontic的20倍)
- Wikontic(2025):以Wikidata为骨架约束,关键数据: - 输出token:<1000(GraphRAG的1/20) - MuSiQue benchmark:96%三元组含正确答案实体 - HotpotQA:76.0 F1(仅用三元组,无需文本上下文) - MINE-1:86% SOTA信息保留率 - 优势:每步可控可替换,幻觉风险最低,支持版本化和持续更新
- 其他方法:(待精读原文)
- 关键结论:Wikontic用<1000输出token实现了GraphRAG 1/20的成本,同时在MuSiQue上达到96%准确率——说明高token消耗不等于高质量
- 2026年趋势预测:
- Schema-Free 与 Schema-Based 趋向融合(先自由探索再整合进标准框架)
- Ontology正成为AI Agent的记忆层
- 标签:
知识图谱GraphRAGWikonticRAG优化LLM2026趋势 - 建议分类:RAG / Knowledge Graph
- 后续行动:建议精读原文第二部分(Five Methods详细对比);确认Wikontic是否开源代码
- 核验建议:Wikontic数据需对照原论文(arXiv链接待查)确认;HotpotQA 76.0 F1是否使用文本需进一步确认
条目S2:Agent Evaluation: A Detailed Guide(Deep (Learning) Focus / Cameron R. Wolfe, Ph.D.)
- 来源:https://cameronrwolfe.substack.com/p/agent-evals
- 作者:Cameron R. Wolfe(Ph.D.,深度学习研究 newsletter,高产)
- 发布日期:引用2025-2026年多项研究
- 类型:Agent评测方法论 / 工程实践
- 可信度:⭐⭐⭐⭐⭐(Ph.D.技术作者,引用arXiv论文,有图解)
- 核心内容:
- ReAct范式核心机制:
Action 1: Search(Kanye West songs) Thought 1: I need to find the album name... Action 2: Read(Kanye's discography page) Thought 2: The album is "The College Dropout"... Action 3: Finish[The College Dropout] - ReAct关键创新:thinking和action的共生关系——模型在每步行动中同时进行显式推理,并考虑来自工具调用或先前thought的观测结果
- 动态上下文 vs 静态RAG:
- RAG:静态地将所有相关文档concatenate到context window,然后回答(pre-loading策略)
- Agent:基于渐进式披露(Progressive Disclosure)的动态策略——不预加载所有上下文,而是动态决定何时需要新信息
- 多Agent系统(Multi-Agent Systems):
- 推理模型(reasoning models)用于高层规划和workflow管理
- 标准LLM作为工具处理简单子任务
- 标签:
Agent评测ReAct动态上下文多AgentCameron Wolfe - 建议分类:Agent Engineering / Evaluation
- 后续行动:本文为方法论框架,建议配合S1的Wikontic数据做联合归档;标记Cameron Wolfe为长期关注作者
条目S3:EP216: RAGs vs Agents — ByteByteGo Newsletter
- 来源:https://substack.com/home/post/p-198874402
- 作者:ByteByteGo(系统设计领域知名 newsletter)
- 类型:RAG vs Agent 决策框架
- 可信度:⭐⭐⭐⭐(ByteByteGo系统性分析,图文并茂)
- 工程决策规则:
``` 使用 RAG 的条件: ✓ 答案存在于你的文档中 ✓ 一次检索 + 一次生成 ✓ 成本可预测、易调试
使用 Agent 的条件: ✓ 答案需要操作其他系统 ✓ 多步推理循环 ✓ 答案需要动作触发 ```
- Agent执行循环: Step 1: 用户查询进入 Agent runtime → 带推理循环的LLM Step 2: LLM读取目标,选择工具(Read/Write/Edit/Bash等) Step 3: Runtime执行工具,将结果反馈给LLM Step 4: LLM再次推理,选择下一步工具,循环直到任务完成
- 关键trade-off:Agent更灵活但token消耗更高,且错误会在多步间漂移(errors drift across steps),调试难度大
- 标签:
RAGAgent选型决策ByteByteGo架构决策 - 建议分类:RAG / Agent(工程决策)
- 后续行动:建议纳入"Agent vs RAG选型决策树"主题页;与C5的RAG+Agent双引擎架构做交叉引用
条目S4:Top AI Papers of the Week — mind and machine weekly(Import AI相关)
- 来源:https://substack.com/home/post/p-198014920
- 发布日期:2026年5-6月
- 类型:AI论文周报 / 技术洞察
- 可信度:⭐⭐⭐⭐
- 核心条目:
-
AEvo(迭代自我改进框架):
- 候选提议者(candidate-proposer)生成下一尝试
- 元Agent观察trace并编辑用于提议未来候选的procedure
- 在agentic和reasoning benchmarks上比最强evolution baseline相对提升26%
- 开环优化任务SOTA
- 工程意义:将累积的agentic search logs作为procedure级更新的输入,而非每次运行后丢弃
-
Memory Curse in LLM Agents(记忆诅咒研究):
- 跨7个LLM和4个社会困境游戏,500轮博弈
- 扩大历史访问范围在18/28组合中降低了合作性
- 机制:长期历史使模型转向推理过去交互而非未来收益(forward-looking intent erosion)
- 缓解方法:LoRA adapter仅在面向未来的traces上训练 + Memory sanitization(固定prompt长度但替换为合成合作记录)
- 标签:
AgentMemoryLong-horizonLLM行为
-
Geometric Calculator(Goodfire mechanistic interpretability):
- LLM内部数字以Fourier features表示
- 数字表示为激活空间中圆上的位置,加法实现为这些圆的旋转
- 本质是余数数字系统(RNS)变体
- 同一电路被复用于算术以外的任务
- 标签:
InterpretabilityLLM内部表示算术电路 - 建议分类:AI Research / Weekly Roundup
- 后续行动:AEvo需查原论文;Memory Curse数据需对照原始实验报告
三、检索范围与去重说明
本次检索范围
- 主要来源:CSDN(向量数据库/RAG/部署/Agent)+ Substack(LLM systems/RAG/Agent)+ Tavily(AI research newsletter)
- 时间范围:2025年至今为主,兼顾2026年最新内容
- 主题覆盖:向量数据库选型 / Ollama vs vLLM / DeepSeek多框架部署 / AI Agent架构 / RAG评测方法 / 知识图谱构建
与近期条目去重
- ✅ 与2026-06-14晚间简报(
2026-06-14-night-briefing.md)无重复:本文聚焦CSDN工程实践,未覆盖SIFT/GraphRAG悖论等晚间条目主题 - ✅ 与2026-06-14下午筛选(
2026-06-14-afternoon-engineering-filter-round3.md)去重:本文为早间批次,涵盖不同CSDN条目 - ⚠️ S1(Wikontic)与2026-06-12知识图谱条目存在主题接近但数据不同(本文补充了MuSiQue 96%和HotpotQA 76.0 F1具体数字)
四、高价值条目汇总
| 优先级 | 条目 | 来源 | 工程/复现价值 | 建议操作 |
|---|---|---|---|---|
| 🔴 最高 | C3 DeepSeek多框架部署笔记 | CSDN | 完整shell命令+排障+版本 | 纳入DeepSeek部署手册 |
| 🔴 最高 | C2 Ollama vs vLLM选型 | CSDN | 真实硬件benchmark+案例 | 纳入部署选型决策树 |
| 🟠 高 | S1 Wikontic知识图谱方法 | Substack | 96% MuSiQue/<1K token | 精读原文+核验论文 |
| 🟠 高 | S2 Agent评测/ReAct机制 | Substack(Cameron Wolfe) | 动态上下文方法论 | 纳入Agent工程框架 |
| 🟡 中 | C1 Milvus vs Qdrant选型 | CSDN | 架构差异+选型建议 | 归档为向量DB参考 |
| 🟡 中 | C4 AI Agent工程实践指南 | CSDN/AtomGit | 理论+框架分类 | 归档为入门参考 |
| 🟡 中 | S3 RAG vs Agents决策框架 | Substack(ByteByteGo) | 清晰选型规则 | 纳入架构决策树 |
五、建议写入路径
- 草稿路径:
/shared/research-kb/inbox/jay/2026-06-15-morning-csdn-vector-rag-ollama-vllm-substack.md✅ 已写入 - 主题页建议:
topics/deployment/llm-deploy-decision-tree.md(C2+C3合并)topics/rag/rag-knowledge-graph-wikontic.md(S1)topics/agent/agent-engineering-framework.md(C4+S2+S3)
六、是否需要精读/审稿/主题页更新
- 精读候选: 1. S1(Wikontic原论文):需核验MuSiQue 96%和HotpotQA 76.0 F1具体来源 2. S2(ReAct深度解析):Cameron Wolfe原文有图解,建议配合原博客精读
- 审稿候选:C3的KTransformers报错处理部分,建议有部署经验的工程师复核
- 主题页更新:建议更新"大模型本地部署"主题页,整合C2+C3为完整选型+实操指南