研究知识库草稿 · Jay · 2026-06-15 早间批次

本次主题

早间批次（2026-06-15）：CSDN 高价值工程实践（向量数据库选型/Ollama vs vLLM/DeepSeek多框架部署）+ Substack 知识图谱构建 + Agent评测方法论 + RAG vs Agents 决策框架

一、CSDN 高价值条目

条目C1：2025年向量数据库实战选型：Milvus vs Qdrant 架构差异与场景适配（CSDN）

来源：https://blog.csdn.net/t8u9v0w1x/article/details/155400487
发布日期：2025（具体日期不详）
阅读量：488次
类型：向量数据库选型 / 架构对比
可信度：⭐⭐⭐⭐（CSDN原创，有具体性能数据和架构分析）
工程价值：⭐⭐⭐⭐
核心内容：
- Milvus：存储计算分离架构（云原生），支持十亿级向量，GPU加速，适合大规模生产部署
- Qdrant：Rust实现，复杂元数据过滤性能优异，资源占用低，适合成本敏感型部署
- Chroma：轻量嵌入式，内存模式，适合中小型项目（但大规模下性能衰减明显）
选型建议：
- 亿级向量 + 多租户 + 复杂查询 → Milvus
- 千元显卡 + 轻量过滤 + 快速迭代 → Qdrant
- 原型/PoC + 个人项目 → Chroma
版本信息：文章基于2025年向量数据库生态，未标注具体版本号，建议交叉验证官网
标签：向量数据库 Milvus Qdrant RAG 选型 架构对比
建议分类：Database / RAG Infrastructure
后续行动：建议对照 VectorDBBench官方结果确认2025年性能排名

条目C2：私有部署大模型选型指南：Ollama vs vLLM 终极对比（CSDN）

来源：https://blog.csdn.net/m0_48891301/article/details/149932656
发布日期：2025-08-05（最新推荐）
类型：大模型推理框架选型 / 工程对比
可信度：⭐⭐⭐⭐（CSDN原创，CC 4.0 BY-SA协议，有真实硬件实测数据）
工程价值：⭐⭐⭐⭐⭐
核心对比维度：

维度	Ollama	vLLM
目标场景	PoC / 50人以下团队	企业级 / 高并发生产环境
上手难度	一键安装，10分钟启动	需要CUDA/Docker环境配置
并发吞吐	10x（100用户时骤降至15 tokens/s）	92 tokens/s（100用户并发）
单次延迟	7B: 40 tokens/s	7B: 128 tokens/s
量化显存	-	降低33%显存占用
多GPU/分布式	❌ 不支持	✅ Kubernetes + Prometheus
API协议	REST	OpenAI兼容

真实案例：
- Ollama：法律团队 RTX 4090 + Ollama + DeepSeek-14B，审核效率提升400%
- vLLM：电商平台 8×H100 + vLLM，日均1亿请求，延迟<500ms
选型决策树：
- 选 Ollama：快速验证想法 / 个人开发者 / 7B~14B / 单用户或<10并发
- 选 vLLM：千亿参数 / 多机集群 / 100+并发 / 需要分布式扩展
标签：Ollama vLLM DeepSeek 本地部署 推理框架 选型
建议分类：LLM Engineering / Inference
后续行动：标记为高价值参考条目，适合纳入"大模型部署选型决策"主题页

条目C3：DeepSeek部署笔记（vLLM / SGLang / Ollama / KTransformers）（CSDN）

来源：https://blog.csdn.net/Eivene/article/details/145895247
发布日期：2025-02-27（2025-03-07修订）
类型：多框架部署实战 / 排障笔记
可信度：⭐⭐⭐⭐⭐（CSDN原创，CC 4.0 BY-SA，有完整环境配置步骤）
工程价值：⭐⭐⭐⭐⭐
完整环境构建流程： ``` # 1. Nvidia驱动 add-apt-repository ppa:graphics-drivers/ppa apt install nvidia-driver-560 -y

2. CUDA 12.6.1

sh cuda_12.6.1_560.35.03_linux.run

注意：install时取消driver勾选（避免驱动冲突）

3. Miniconda

sh Miniconda3-latest-Linux-x86_64.sh ``` - 四框架横向对比：

框架	适用场景	显存需求	多卡支持	格式支持
vLLM	高吞吐生产	高（建议40G+）	✅ 多机多卡	pt/safetensors
SGLang	MoE / 结构化生成	中高	✅ 多节点TP	FP8/W8A8
Ollama	快速原型	低（7B可用24G）	❌	gguf/layered
KTransformers	24G单卡满血DeepSeek	低	❌	自有格式

踩坑记录（本文重点）：
1. vLLM安装报错：pip install vLLM 需确保CUDA版本匹配
2. vLLM启动报错：需设置 CUDA_VISIBLE_DEVICES，避免多卡竞争
3. KTransformers内存要求：双CPU + 内存≥2×模型大小（如512G模型需1TB RAM）
4. SGLang推理模型参数：必须加 --enable-reasoning --reasoning-parser deepseek_r1
复现价值：⭐⭐⭐⭐⭐（完整shell命令 + 版本号 + 报错处理）
标签：DeepSeek vLLM SGLang Ollama KTransformers 部署 CUDA 排障
建议分类：LLM Engineering / Deployment
后续行动：建议纳入"DeepSeek本地部署完整手册"主题页；交叉验证SGLang的 --reasoning-parser 参数在最新版本是否仍适用

条目C4：从被动响应到主动规划：AI Agent工程实践全栈指南（CSDN/AtomGit）

来源：https://gitcode.csdn.net/69c28dfd54b52172bc63f6a2.html
发布日期：引用2025年6月 Andrej Karpathy YC演讲
类型：Agent架构设计 / 工程实践框架
可信度：⭐⭐⭐⭐（引用公开演讲 + 主流框架，理论扎实）
工程价值：⭐⭐⭐⭐
核心公式：AI Agent = LLM (Reasoning) + Planning + Memory + Tool Use
软件范式演进图：

范式	核心	开发方式
Software 1.0	逻辑外化为代码	手写逻辑
Software 2.0	数据驱动	梯度下降
Software 3.0	自然语言驱动	目标定义

Karpathy核心观点："LLM是新的操作系统内核(LLM OS)，Agent就是在这个新OS上运行的程序"
Agent框架分类：

类型	特点	代表框架
纯代码型	Prompt/工具/记忆/工作流全代码管理	LangChain, Spring AI Alibaba
混合型	部分代码+部分声明式	LlamaIndex
平台型	云服务+拖拽式	Coze, Dify

标签：AI Agent 架构设计 Karpathy LangChain Software 3.0
建议分类：Agent Engineering
后续行动：本文为理论框架型，建议配合C3的部署实战一起归档；可作为"Agent工程入门"推荐阅读

条目C5：RAG+Agent双引擎实战指南（CSDN）

来源：https://blog.csdn.net/2401_88863003/article/details/161428840
类型：RAG + Agent协同架构
可信度：⭐⭐⭐（理论综述型，具体代码/命令偏少）
工程价值：⭐⭐⭐
双引擎架构：RAG解决知识时效性/事实准确性 → Agent负责复杂推理/工具调用
评价：概念清晰但缺乏详细实现代码，更适合作为入门介绍而非工程参考
标签：RAG Agent 双引擎 架构
建议分类：RAG / Agent（入门级）
后续行动：归档为入门参考，不作为工程精读条目

二、Substack 高价值条目

条目S1：Building Knowledge Graphs with LLMs: Five Methods Compared（Zero Future Tech）

来源：https://zerofuturetech.substack.com/p/building-ontology-with-llms-five
作者：Zero Future Tech（独立技术 newsletter）
发布日期：2026-05-22
类型：知识图谱构建 / LLM工程实践
可信度：⭐⭐⭐⭐（技术 newsletter，有量化数据，引用2025-2026论文）
核心洞察：
核心问题：RAG系统中文档"供应商评分"在不同时刻给出不同答案（85→92→78），原因在于LLM不知道"供应商-评分-日期"之间的关系
五种方法对比（从轻量到重量级）：
1. GraphRAG：全图谱方法，token消耗高（Wikontic的20倍）
2. Wikontic（2025）：以Wikidata为骨架约束，关键数据： - 输出token：<1000（GraphRAG的1/20） - MuSiQue benchmark：96%三元组含正确答案实体 - HotpotQA：76.0 F1（仅用三元组，无需文本上下文） - MINE-1：86% SOTA信息保留率 - 优势：每步可控可替换，幻觉风险最低，支持版本化和持续更新
3. 其他方法：（待精读原文）
关键结论：Wikontic用<1000输出token实现了GraphRAG 1/20的成本，同时在MuSiQue上达到96%准确率——说明高token消耗不等于高质量
2026年趋势预测：
1. Schema-Free 与 Schema-Based 趋向融合（先自由探索再整合进标准框架）
2. Ontology正成为AI Agent的记忆层
标签：知识图谱 GraphRAG Wikontic RAG优化 LLM 2026趋势
建议分类：RAG / Knowledge Graph
后续行动：建议精读原文第二部分（Five Methods详细对比）；确认Wikontic是否开源代码
核验建议：Wikontic数据需对照原论文（arXiv链接待查）确认；HotpotQA 76.0 F1是否使用文本需进一步确认

条目S2：Agent Evaluation: A Detailed Guide（Deep (Learning) Focus / Cameron R. Wolfe, Ph.D.）

来源：https://cameronrwolfe.substack.com/p/agent-evals
作者：Cameron R. Wolfe（Ph.D.，深度学习研究 newsletter，高产）
发布日期：引用2025-2026年多项研究
类型：Agent评测方法论 / 工程实践
可信度：⭐⭐⭐⭐⭐（Ph.D.技术作者，引用arXiv论文，有图解）
核心内容：
ReAct范式核心机制： Action 1: Search(Kanye West songs) Thought 1: I need to find the album name... Action 2: Read(Kanye's discography page) Thought 2: The album is "The College Dropout"... Action 3: Finish[The College Dropout]
ReAct关键创新：thinking和action的共生关系——模型在每步行动中同时进行显式推理，并考虑来自工具调用或先前thought的观测结果
动态上下文 vs 静态RAG：
- RAG：静态地将所有相关文档concatenate到context window，然后回答（pre-loading策略）
- Agent：基于渐进式披露（Progressive Disclosure）的动态策略——不预加载所有上下文，而是动态决定何时需要新信息
多Agent系统（Multi-Agent Systems）：
- 推理模型(reasoning models)用于高层规划和workflow管理
- 标准LLM作为工具处理简单子任务
标签：Agent评测 ReAct 动态上下文 多Agent Cameron Wolfe
建议分类：Agent Engineering / Evaluation
后续行动：本文为方法论框架，建议配合S1的Wikontic数据做联合归档；标记Cameron Wolfe为长期关注作者

来源：https://substack.com/home/post/p-198874402
作者：ByteByteGo（系统设计领域知名 newsletter）
类型：RAG vs Agent 决策框架
可信度：⭐⭐⭐⭐（ByteByteGo系统性分析，图文并茂）
工程决策规则：

``` 使用 RAG 的条件： ✓ 答案存在于你的文档中 ✓ 一次检索 + 一次生成 ✓ 成本可预测、易调试

使用 Agent 的条件： ✓ 答案需要操作其他系统 ✓ 多步推理循环 ✓ 答案需要动作触发 ```

Agent执行循环： Step 1: 用户查询进入 Agent runtime → 带推理循环的LLM Step 2: LLM读取目标，选择工具（Read/Write/Edit/Bash等） Step 3: Runtime执行工具，将结果反馈给LLM Step 4: LLM再次推理，选择下一步工具，循环直到任务完成
关键trade-off：Agent更灵活但token消耗更高，且错误会在多步间漂移（errors drift across steps），调试难度大
标签：RAG Agent 选型决策 ByteByteGo 架构决策
建议分类：RAG / Agent（工程决策）
后续行动：建议纳入"Agent vs RAG选型决策树"主题页；与C5的RAG+Agent双引擎架构做交叉引用

条目S4：Top AI Papers of the Week — mind and machine weekly（Import AI相关）

来源：https://substack.com/home/post/p-198014920
发布日期：2026年5-6月
类型：AI论文周报 / 技术洞察
可信度：⭐⭐⭐⭐
核心条目：

AEvo（迭代自我改进框架）：
- 候选提议者(candidate-proposer)生成下一尝试
- 元Agent观察trace并编辑用于提议未来候选的procedure
- 在agentic和reasoning benchmarks上比最强evolution baseline相对提升26%
- 开环优化任务SOTA
- 工程意义：将累积的agentic search logs作为procedure级更新的输入，而非每次运行后丢弃
Memory Curse in LLM Agents（记忆诅咒研究）：
- 跨7个LLM和4个社会困境游戏，500轮博弈
- 扩大历史访问范围在18/28组合中降低了合作性
- 机制：长期历史使模型转向推理过去交互而非未来收益（forward-looking intent erosion）
- 缓解方法：LoRA adapter仅在面向未来的traces上训练 + Memory sanitization（固定prompt长度但替换为合成合作记录）
- 标签：Agent Memory Long-horizon LLM行为
Geometric Calculator（Goodfire mechanistic interpretability）：
- LLM内部数字以Fourier features表示
- 数字表示为激活空间中圆上的位置，加法实现为这些圆的旋转
- 本质是余数数字系统(RNS)变体
- 同一电路被复用于算术以外的任务
- 标签：Interpretability LLM内部表示 算术电路
- 建议分类：AI Research / Weekly Roundup
- 后续行动：AEvo需查原论文；Memory Curse数据需对照原始实验报告

三、检索范围与去重说明

本次检索范围

主要来源：CSDN（向量数据库/RAG/部署/Agent）+ Substack（LLM systems/RAG/Agent）+ Tavily（AI research newsletter）
时间范围：2025年至今为主，兼顾2026年最新内容
主题覆盖：向量数据库选型 / Ollama vs vLLM / DeepSeek多框架部署 / AI Agent架构 / RAG评测方法 / 知识图谱构建

与近期条目去重

✅ 与2026-06-14晚间简报（2026-06-14-night-briefing.md）无重复：本文聚焦CSDN工程实践，未覆盖SIFT/GraphRAG悖论等晚间条目主题
✅ 与2026-06-14下午筛选（2026-06-14-afternoon-engineering-filter-round3.md）去重：本文为早间批次，涵盖不同CSDN条目
⚠️ S1（Wikontic）与2026-06-12知识图谱条目存在主题接近但数据不同（本文补充了MuSiQue 96%和HotpotQA 76.0 F1具体数字）

四、高价值条目汇总

优先级	条目	来源	工程/复现价值	建议操作
🔴 最高	C3 DeepSeek多框架部署笔记	CSDN	完整shell命令+排障+版本	纳入DeepSeek部署手册
🔴 最高	C2 Ollama vs vLLM选型	CSDN	真实硬件benchmark+案例	纳入部署选型决策树
🟠 高	S1 Wikontic知识图谱方法	Substack	96% MuSiQue/<1K token	精读原文+核验论文
🟠 高	S2 Agent评测/ReAct机制	Substack(Cameron Wolfe)	动态上下文方法论	纳入Agent工程框架
🟡 中	C1 Milvus vs Qdrant选型	CSDN	架构差异+选型建议	归档为向量DB参考
🟡 中	C4 AI Agent工程实践指南	CSDN/AtomGit	理论+框架分类	归档为入门参考
🟡 中	S3 RAG vs Agents决策框架	Substack(ByteByteGo)	清晰选型规则	纳入架构决策树

五、建议写入路径

草稿路径：/shared/research-kb/inbox/jay/2026-06-15-morning-csdn-vector-rag-ollama-vllm-substack.md ✅ 已写入
主题页建议：
topics/deployment/llm-deploy-decision-tree.md（C2+C3合并）
topics/rag/rag-knowledge-graph-wikontic.md（S1）
topics/agent/agent-engineering-framework.md（C4+S2+S3）

六、是否需要精读/审稿/主题页更新

精读候选： 1. S1（Wikontic原论文）：需核验MuSiQue 96%和HotpotQA 76.0 F1具体来源 2. S2（ReAct深度解析）：Cameron Wolfe原文有图解，建议配合原博客精读
审稿候选：C3的KTransformers报错处理部分，建议有部署经验的工程师复核
主题页更新：建议更新"大模型本地部署"主题页，整合C2+C3为完整选型+实操指南