研究知识库草稿 · Jay · 2026-06-19
主题
RAG 2.0 / Agentic RAG · LLM推理框架选型(vLLM/SGLang/TensorRT-LLM)· 向量数据库2025选型 · AI Agent框架生态
一、CSDN高价值条目
条目1:AI Agent 框架选型指南(2026版)
- 来源:CSDN博客 ·
weixin_42376192·article/details/154336665 - 标题:
AI Agent 框架选型指南:OpenClaw、LangChain、AutoGPT - 内容摘要:
- 全面对比2026年主流AI Agent开发框架:LangChain、AutoGen、CrewAI、LangGraph、Semantic Kernel、Dify等
- 明确区分通用主流、企业级、轻量级三类框架
- 详细阐述ReAct范式、Toolformer/MCP工具调用、多Agent协作架构
- 涵盖应用案例:Cognosys(个人AI助理)、GPT-Engineer(代码生成)、ChatDev(多Agent软件开发)、MultiOn(Web自动化)
- 分析六大技术挑战:长上下文处理、多模态集成、执行稳定性与可靠性、部署模式
- 给出商业化模式分析:订阅制、佣金/增值、平台生态/商店
- 工程价值:⭐⭐⭐⭐⭐ | 复现价值:⭐⭐⭐⭐
- 版本/命令:
- LangChain Python/JS双版本
- Semantic Kernel .NET/C#/Python多语言
- Dify(YAML配置,低代码)
- Ollama本地部署命令:
ollama run llama3 - 评价:框架选型维度完整,架构对比有深度,适合工程落地决策参考
- 分类标签:
AI-AgentLangChainAutoGen框架选型MCP多Agent - 建议操作:精读;可作为知识库"Agent开发框架"主题页核心参考
条目2:深度解析主流大模型推理部署框架
- 来源:CSDN博客 ·
xuebinding·article/details/150924452 - 标题:
深度解析主流大模型推理部署框架(vLLM、SGLang、TensorRT-LLM、Ollama、XInference)+Qwen3全流程部署 - 内容摘要:
- vLLM:PagedAttention核心原理,连续批处理,KV Cache优化;适合高并发企业服务
- SGLang:基于LightLLM/vLLM/Guidance增强,RadixAttention实现前缀缓存复用;支持千亿模型单机部署
- TensorRT-LLM:自定义CUDA内核,FP8/FP4/INT4 AWQ量化,动态批处理,投机性解码;NVIDIA GPU极致性能
- Ollama:开箱即用,Model Library,OpenAI兼容API;适合个人开发者/原型验证
- XInference:统一推理服务层,支持多种backend
- llama.cpp:C/C++无依赖,Apple Silicon优化(Metal),RISC-V支持,1.5-8位量化
- 工程价值:⭐⭐⭐⭐⭐ | 复现价值:⭐⭐⭐⭐⭐
- 版本/命令:
- vLLM安装:
pip install vllm(不支持Windows) - SGLang:
python -m sglang.launch_server - TensorRT-LLM:需CUDA 12.8+
- Ollama:
ollama run qwen3 - 评价:覆盖2026年推理框架五强,原理+实操兼具,工程落地必读
- 分类标签:
LLM推理vLLMSGLangTensorRT-LLMllama.cppOllama部署调优 - 建议操作:精读;建议补充SGLang与vLLM在千亿模型上的benchmark数据
条目3:为什么2025年的RAG课程在2026年直接过时?
- 来源:腾讯云开发者社区(转CSDN作者HOS/安全风信子)·
cloud.tencent.com/developer/article/2649980 - 原创平台:CSDN ·
lxcxjxhx/article/details/159728083(2026-04-01) - 标题:
5:为什么2025年的RAG课程在2026年直接过时? - 内容摘要:
- 过时原因一(长上下文革命):1M+ token上下文成为可能,纯向量检索不再是必选
- 过时原因二(GraphRAG标配化):实体识别→图遍历→向量补充→融合排序;法律文档助手案例:准确率62%→89%
- 过时原因三(Multimodal RAG):图文音视频统一检索;2025仅文本→2026图文音视频
- 过时原因四(Agentic Retrieval):单次检索→多轮检索+推理;Advanced RAG升级Agentic RAG需2-3周
- 过时原因五(自进化能力):静态索引→根据用户反馈自动优化
- 升级路径:Step1评估现状→Step2选择路径(Naive/Advanced/Modular RAG→Agentic RAG)→Step3实施
- 代码模板:EnterpriseMultimodalRAG类(多路召回:向量+图谱+多模态编码器)
- 工程价值:⭐⭐⭐⭐ | 复现价值:⭐⭐⭐
- 版本/命令:Python企业级模板,依赖VectorStore/GraphStore/MultimodalEncoder
- 评价:对RAG技术演进判断有参考价值,代码模板可直接参考;但部分观点偏营销腔
- 分类标签:
RAGGraphRAGMultimodal-RAGAgentic-RAGRAG2.0 - 建议操作:审稿;内容有干货但标题有引流感,需交叉验证数据
条目4:2025年主流向量数据库深度对比
- 来源:CSDN博客 ·
Jailman·article/details/146253000 - 标题:
2025年主流向量数据库 - 内容摘要:
- Milvus:企业级分布式,1000万QPS,50ms延迟,26.2k★;多向量搜索;支持混合过滤
- Qdrant:高性能开源,1500万QPS,45ms延迟,17k★;基于Rust,稀疏向量检索速度提升16倍;标量量化+产品量化
- Weaviate:知识图谱融合,800万QPS,80ms延迟;BM25关键词搜索+混合搜索
- PgVector:PostgreSQL扩展,500万QPS,12ms延迟(延迟最低);仅支持文本
- 腾讯云VDB:云原生托管,2000万QPS,35ms延迟;多模态+OCR;0运维成本
- ANN Benchmarks对比数据:glove-100-angular、nytimes-256-angular测试集结果
- 度量指标:余弦距离、欧几里得距离、内积(点积)、汉明距离
- 工程价值:⭐⭐⭐⭐ | 复现价值:⭐⭐⭐⭐
- 版本:Milvus 2.4+,Qdrant 1.x
- 评价:选型维度全面,数据真实;建议对照官方VectorDBBench自行验证
- 分类标签:
向量数据库MilvusQdrantWeaviate选型对比 - 建议操作:审稿;可作为知识库"向量数据库选型"主题页核心数据源
条目5:Milvus高级功能与性能调优
- 来源:CSDN博客 ·
qq_51605551·article/details/148190122 - 标题:
向量数据库Milvus03-高级功能与性能调优 - 内容摘要:
- Milvus架构:存储计算分离,分布式水平扩展
- 索引类型对比:FLAT(精确)、IVF系列(倒排文件)、HNSW(分层导航小世界图)
- 性能调优策略:chunk大小、segment配置、内存分配
- 混合查询:向量检索+标量过滤组合
- 工程价值:⭐⭐⭐⭐ | 复现价值:⭐⭐⭐⭐
- 版本:Milvus 2.3+
- 评价:实操调优内容,有命令和配置示例;适合生产部署参考
- 分类标签:
Milvus向量数据库性能调优HNSW索引 - 建议操作:精读
二、Substack高价值条目
Substack条目1:RAG Reimagined: 5 Breakthroughs(Gradient Flow)
- 来源:gradientflow.substack.com(Ben Lorica)· 2025-06-12
- 标题:
RAG Reimagined: 5 Breakthroughs You Should Know - 核心洞察: 1. Agentic RAG:推理模型+推理时计算将RAG从静态管道变为动态自适应系统 2. Self-Reflective RAG:Snowflake AI Research团队的进展,检索context模糊/不足时模型可自我评估并重试 3. Multimodal RAG:Lance v2文件格式专门优化AI/ML工作流,支持多样化数据类型和宽schema,提升多模态RAG检索速度和可扩展性 4. Hybrid Search Integration:结构化与非结构化数据融合 5. Evaluation & Reliability:RAG系统可解释性(引用溯源)作为核心竞争力
- 可信度:高(作者Ben Lorica为知名ML/AI数据技术作者,Substack高质量数据与ML newsletter)
- 后续行动:
- 核验Lance v2官方文档:
blog.lancedb.com/lance-v2/ - 核验Snowflake AI Research相关论文
- 关注Self-Reflective RAG论文
- 分类标签:
RAGAgentic-RAGMultimodal-RAGSnowflakeLanceDBGradientFlow - 建议操作:精读;建议对照原论文验证
Substack条目2:ReAG - Moving Beyond Traditional RAG(AI Agents, AI Engineering & LLM Systems)
- 来源:sebgnotes.substack.com(Sebastian Gutierrez)· 2025-01-27
- 专栏:
AI Agents, AI Engineering, & LLM Systems - 标题:
ReAG: Moving Beyond Traditional RAG Through Direct Reasoning - 核心洞察:
- 核心思想:跳过传统RAG的文档预处理/embedding/向量数据库,让LLM直接分析原始文档
- 适用场景:复杂查询("监管变化如何影响社区银行")、动态数据(实时新闻分析)、多模态内容(财务报告图表)、高上下文依赖(医学研究综合)
- 权衡:计算成本更高,但精度和上下文保留更好;适合query重要性高的场景
- 混合方向:RAG做初筛+ReAG做深度分析
- 未来演进:硬件加速、基于query重要性的选择性深度分析、多step推理链
- 可信度:中高(作者技术背景清晰,但属于个人笔记型总结)
- 后续行动:查找ReAG原始论文/代码仓库;核验该方向是否有SOTA论文支撑
- 分类标签:
ReAGRAG演进LLM推理知识系统 - 建议操作:审稿;验证是否有对应学术论文
Substack条目3:Latest Trends in AI Agents April 2025(Martin Schröder)
- 来源:martinschroder.substack.com
- 标题:
#016: Latest Trends in AI Agents: April 17th 2025 Research Report - 核心洞察:
- Jeong(2025)研究证明:多模态LLM-based Multi-Agent Systems可通过no-code平台实现
- 覆盖内容:AI Agent框架生态、多模态Agent、自主Agent能力、架构演进、实际应用
- 属于付费newsletter,当前仅获取到目录结构
- 可信度:中(付费内容,获取有限)
- 后续行动:关注作者主页是否有免费摘要版本
- 分类标签:
AI-Agent多模态-AgentNo-Code2025-04 - 建议操作:仅做线索记录,待获取完整内容后再评估
三、分类标签汇总
| 标签 | 条目数 |
|---|---|
| RAG / Agentic-RAG / GraphRAG / Multimodal-RAG | 5 |
| AI-Agent / LangChain / AutoGen / 多Agent | 3 |
| LLM推理 / vLLM / SGLang / TensorRT-LLM | 2 |
| 向量数据库 / Milvus / Qdrant | 3 |
| 框架选型 / 工程落地 | 4 |
| Substack / 英文技术博客 | 3 |
四、建议写入路径
/shared/research-kb/inbox/jay/2026-06-19-rag-agent-inference-tech.md
五、后续行动建议
-
精读优先级: - CSDN:
xuebinding大模型推理框架深度解析(最高) - CSDN:weixin_42376192AI Agent框架选型指南(高) - CSDN:Jailman向量数据库选型对比(高) - Substack:Gradient Flow RAG Reimagined(高) -
审稿/核验: - RAG 2026过时文章数据需对照原论文 - ReAG方向是否有学术支撑需核实
-
主题页更新建议: - 新建/更新"RAG技术演进图谱"页面(融合GraphRAG/Agentic RAG/ReAG) - 新建/更新"LLM推理框架选型"页面(vLLM/SGLang/TensorRT-LLM/Ollama/llama.cpp五强对比) - 更新"向量数据库选型"页面(补充2025实测数据)
草稿完成时间:2026-06-19 12:25 (UTC+8) 实例:Jay · 知识库高频运营任务