研究知识库草稿 · Jay · 2026-06-19

主题

RAG 2.0 / Agentic RAG · LLM推理框架选型（vLLM/SGLang/TensorRT-LLM）· 向量数据库2025选型 · AI Agent框架生态

一、CSDN高价值条目

条目1：AI Agent 框架选型指南（2026版）

来源：CSDN博客 · weixin_42376192 · article/details/154336665
标题：AI Agent 框架选型指南：OpenClaw、LangChain、AutoGPT
内容摘要：
全面对比2026年主流AI Agent开发框架：LangChain、AutoGen、CrewAI、LangGraph、Semantic Kernel、Dify等
明确区分通用主流、企业级、轻量级三类框架
详细阐述ReAct范式、Toolformer/MCP工具调用、多Agent协作架构
涵盖应用案例：Cognosys（个人AI助理）、GPT-Engineer（代码生成）、ChatDev（多Agent软件开发）、MultiOn（Web自动化）
分析六大技术挑战：长上下文处理、多模态集成、执行稳定性与可靠性、部署模式
给出商业化模式分析：订阅制、佣金/增值、平台生态/商店
工程价值：⭐⭐⭐⭐⭐ | 复现价值：⭐⭐⭐⭐
版本/命令：
LangChain Python/JS双版本
Semantic Kernel .NET/C#/Python多语言
Dify（YAML配置，低代码）
Ollama本地部署命令：ollama run llama3
评价：框架选型维度完整，架构对比有深度，适合工程落地决策参考
分类标签：AI-Agent LangChain AutoGen 框架选型 MCP 多Agent
建议操作：精读；可作为知识库"Agent开发框架"主题页核心参考

条目2：深度解析主流大模型推理部署框架

来源：CSDN博客 · xuebinding · article/details/150924452
标题：深度解析主流大模型推理部署框架(vLLM、SGLang、TensorRT-LLM、Ollama、XInference)+Qwen3全流程部署
内容摘要：
vLLM：PagedAttention核心原理，连续批处理，KV Cache优化；适合高并发企业服务
SGLang：基于LightLLM/vLLM/Guidance增强，RadixAttention实现前缀缓存复用；支持千亿模型单机部署
TensorRT-LLM：自定义CUDA内核，FP8/FP4/INT4 AWQ量化，动态批处理，投机性解码；NVIDIA GPU极致性能
Ollama：开箱即用，Model Library，OpenAI兼容API；适合个人开发者/原型验证
XInference：统一推理服务层，支持多种backend
llama.cpp：C/C++无依赖，Apple Silicon优化（Metal），RISC-V支持，1.5-8位量化
工程价值：⭐⭐⭐⭐⭐ | 复现价值：⭐⭐⭐⭐⭐
版本/命令：
vLLM安装：pip install vllm（不支持Windows）
SGLang：python -m sglang.launch_server
TensorRT-LLM：需CUDA 12.8+
Ollama：ollama run qwen3
评价：覆盖2026年推理框架五强，原理+实操兼具，工程落地必读
分类标签：LLM推理 vLLM SGLang TensorRT-LLM llama.cpp Ollama 部署调优
建议操作：精读；建议补充SGLang与vLLM在千亿模型上的benchmark数据

条目3：为什么2025年的RAG课程在2026年直接过时？

来源：腾讯云开发者社区（转CSDN作者HOS/安全风信子）· cloud.tencent.com/developer/article/2649980
原创平台：CSDN · lxcxjxhx/article/details/159728083（2026-04-01）
标题：5:为什么2025年的RAG课程在2026年直接过时？
内容摘要：
过时原因一（长上下文革命）：1M+ token上下文成为可能，纯向量检索不再是必选
过时原因二（GraphRAG标配化）：实体识别→图遍历→向量补充→融合排序；法律文档助手案例：准确率62%→89%
过时原因三（Multimodal RAG）：图文音视频统一检索；2025仅文本→2026图文音视频
过时原因四（Agentic Retrieval）：单次检索→多轮检索+推理；Advanced RAG升级Agentic RAG需2-3周
过时原因五（自进化能力）：静态索引→根据用户反馈自动优化
升级路径：Step1评估现状→Step2选择路径（Naive/Advanced/Modular RAG→Agentic RAG）→Step3实施
代码模板：EnterpriseMultimodalRAG类（多路召回：向量+图谱+多模态编码器）
工程价值：⭐⭐⭐⭐ | 复现价值：⭐⭐⭐
版本/命令：Python企业级模板，依赖VectorStore/GraphStore/MultimodalEncoder
评价：对RAG技术演进判断有参考价值，代码模板可直接参考；但部分观点偏营销腔
分类标签：RAG GraphRAG Multimodal-RAG Agentic-RAG RAG2.0
建议操作：审稿；内容有干货但标题有引流感，需交叉验证数据

条目4：2025年主流向量数据库深度对比

来源：CSDN博客 · Jailman · article/details/146253000
标题：2025年主流向量数据库
内容摘要：
Milvus：企业级分布式，1000万QPS，50ms延迟，26.2k★；多向量搜索；支持混合过滤
Qdrant：高性能开源，1500万QPS，45ms延迟，17k★；基于Rust，稀疏向量检索速度提升16倍；标量量化+产品量化
Weaviate：知识图谱融合，800万QPS，80ms延迟；BM25关键词搜索+混合搜索
PgVector：PostgreSQL扩展，500万QPS，12ms延迟（延迟最低）；仅支持文本
腾讯云VDB：云原生托管，2000万QPS，35ms延迟；多模态+OCR；0运维成本
ANN Benchmarks对比数据：glove-100-angular、nytimes-256-angular测试集结果
度量指标：余弦距离、欧几里得距离、内积（点积）、汉明距离
工程价值：⭐⭐⭐⭐ | 复现价值：⭐⭐⭐⭐
版本：Milvus 2.4+，Qdrant 1.x
评价：选型维度全面，数据真实；建议对照官方VectorDBBench自行验证
分类标签：向量数据库 Milvus Qdrant Weaviate 选型对比
建议操作：审稿；可作为知识库"向量数据库选型"主题页核心数据源

条目5：Milvus高级功能与性能调优

来源：CSDN博客 · qq_51605551 · article/details/148190122
标题：向量数据库Milvus03-高级功能与性能调优
内容摘要：
Milvus架构：存储计算分离，分布式水平扩展
索引类型对比：FLAT（精确）、IVF系列（倒排文件）、HNSW（分层导航小世界图）
性能调优策略：chunk大小、segment配置、内存分配
混合查询：向量检索+标量过滤组合
工程价值：⭐⭐⭐⭐ | 复现价值：⭐⭐⭐⭐
版本：Milvus 2.3+
评价：实操调优内容，有命令和配置示例；适合生产部署参考
分类标签：Milvus 向量数据库 性能调优 HNSW 索引
建议操作：精读

二、Substack高价值条目

Substack条目1：RAG Reimagined: 5 Breakthroughs（Gradient Flow）

来源：gradientflow.substack.com（Ben Lorica）· 2025-06-12
标题：RAG Reimagined: 5 Breakthroughs You Should Know
核心洞察： 1. Agentic RAG：推理模型+推理时计算将RAG从静态管道变为动态自适应系统 2. Self-Reflective RAG：Snowflake AI Research团队的进展，检索context模糊/不足时模型可自我评估并重试 3. Multimodal RAG：Lance v2文件格式专门优化AI/ML工作流，支持多样化数据类型和宽schema，提升多模态RAG检索速度和可扩展性 4. Hybrid Search Integration：结构化与非结构化数据融合 5. Evaluation & Reliability：RAG系统可解释性（引用溯源）作为核心竞争力
可信度：高（作者Ben Lorica为知名ML/AI数据技术作者，Substack高质量数据与ML newsletter）
后续行动：
核验Lance v2官方文档：blog.lancedb.com/lance-v2/
核验Snowflake AI Research相关论文
关注Self-Reflective RAG论文
分类标签：RAG Agentic-RAG Multimodal-RAG Snowflake LanceDB GradientFlow
建议操作：精读；建议对照原论文验证

Substack条目2：ReAG - Moving Beyond Traditional RAG（AI Agents, AI Engineering & LLM Systems）

来源：sebgnotes.substack.com（Sebastian Gutierrez）· 2025-01-27
专栏：AI Agents, AI Engineering, & LLM Systems
标题：ReAG: Moving Beyond Traditional RAG Through Direct Reasoning
核心洞察：
核心思想：跳过传统RAG的文档预处理/embedding/向量数据库，让LLM直接分析原始文档
适用场景：复杂查询（"监管变化如何影响社区银行"）、动态数据（实时新闻分析）、多模态内容（财务报告图表）、高上下文依赖（医学研究综合）
权衡：计算成本更高，但精度和上下文保留更好；适合query重要性高的场景
混合方向：RAG做初筛+ReAG做深度分析
未来演进：硬件加速、基于query重要性的选择性深度分析、多step推理链
可信度：中高（作者技术背景清晰，但属于个人笔记型总结）
后续行动：查找ReAG原始论文/代码仓库；核验该方向是否有SOTA论文支撑
分类标签：ReAG RAG演进 LLM推理 知识系统
建议操作：审稿；验证是否有对应学术论文

Substack条目3：Latest Trends in AI Agents April 2025（Martin Schröder）

来源：martinschroder.substack.com
标题：#016: Latest Trends in AI Agents: April 17th 2025 Research Report
核心洞察：
Jeong(2025)研究证明：多模态LLM-based Multi-Agent Systems可通过no-code平台实现
覆盖内容：AI Agent框架生态、多模态Agent、自主Agent能力、架构演进、实际应用
属于付费newsletter，当前仅获取到目录结构
可信度：中（付费内容，获取有限）
后续行动：关注作者主页是否有免费摘要版本
分类标签：AI-Agent 多模态-Agent No-Code 2025-04
建议操作：仅做线索记录，待获取完整内容后再评估

三、分类标签汇总

标签	条目数
RAG / Agentic-RAG / GraphRAG / Multimodal-RAG	5
AI-Agent / LangChain / AutoGen / 多Agent	3
LLM推理 / vLLM / SGLang / TensorRT-LLM	2
向量数据库 / Milvus / Qdrant	3
框架选型 / 工程落地	4
Substack / 英文技术博客	3

四、建议写入路径

/shared/research-kb/inbox/jay/2026-06-19-rag-agent-inference-tech.md

五、后续行动建议

精读优先级： - CSDN：xuebinding大模型推理框架深度解析（最高） - CSDN：weixin_42376192 AI Agent框架选型指南（高） - CSDN：Jailman向量数据库选型对比（高） - Substack：Gradient Flow RAG Reimagined（高）
审稿/核验： - RAG 2026过时文章数据需对照原论文 - ReAG方向是否有学术支撑需核实
主题页更新建议： - 新建/更新"RAG技术演进图谱"页面（融合GraphRAG/Agentic RAG/ReAG） - 新建/更新"LLM推理框架选型"页面（vLLM/SGLang/TensorRT-LLM/Ollama/llama.cpp五强对比） - 更新"向量数据库选型"页面（补充2025实测数据）

草稿完成时间：2026-06-19 12:25 (UTC+8) 实例：Jay · 知识库高频运营任务