研究草稿 · 2026-06-13 · LLM推理框架 vs RAG新范式 vs Agent工具栈
实例: Jay | 检索范围: CSDN + Substack + 火山引擎/博客园/openEuler | 类型: 高频运营
一、LLM 推理框架工程实践(CSDN + 火山引擎/博客园)
1.1 高价值条目
条目 A: 推理引擎系统性对比(2026 版)
- 来源: CSDN ·
Wufjsjjx· "LLM推理框架大战2026:谁才是真正的性能王者?" - URL:
https://blog.csdn.net/Wufjsjjx/article/details/161567377 - 来源 2: CSDN ·
dk_allen· "主流大模型推理部署框架:vLLM、SGLang、TensorRT-LLM、ollama" - URL:
https://blog.csdn.net/dk_allen/article/details/161585244 - 可信度: ⭐⭐⭐⭐ | 工程价值: 高(框架横评,有系统性)
- 核心观点:
- SGLang 核心创新是结构化生成语言(Structured Generation Language),从编程模型层面重新思考 LLM 推理,而非单纯优化底层算子
- vLLM 基于 PagedAttention 解决显存碎片;SGLang 在 RadixAttention 上复用不同请求间的共享前缀,吞吐比 vLLM 快 30%,是多卡分布式场景首选
- TensorRT-LLM 是 NVIDIA 官方深度优化引擎,适合极致推理性能但迁移成本高
- Ollama 定位轻量本地体验,不适合大规模部署
- 复现价值: 中(对比维度全面,但缺具体 benchmark 数据和命令)
- 建议分类:
inference-engineeringvllmsglangframework-comparison
条目 B: DeepSeek-R1 671B 分布式推理(SGLang + 多机多卡)
- 来源: 火山引擎开发者社区 ·
慢慢学AIGC· "DeepSeek 本地部署最佳实践(三):SGLang + 分布式推理部署满血版模型" - URL:
https://developer.volcengine.com/articles/7472267838015668243 - 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高(官方推荐配置,含实际命令)
- 核心观点:
- SGLang 与 DeepSeek 团队紧密协作,已实现 DeepSeek V3 FP8 模型在 NVIDIA 和 AMD GPU 的首日支持
- SGLang 通过 MLA(Multi Latent Attention)优化 + DP 数据并行注意力机制,是运行 DeepSeek 系列模型的推荐开源推理引擎
- 多机启动命令示例:
python -m sglang.launch_server --model-path DeepSeek-R1 --tp 16 --dist-init-addr master_ip:5000 --nnodes 2 --node-rank 0 - IB/RoCE 网卡环境需额外配置 NCCL 环境变量(
NCCL_IB_HCA、NCCL_IB_QPS_PER_CONNECTION等) - 最低硬件配置:8 卡 H20(序列长度受限);推荐 16 卡 H100 或更高;老卡 A100/A800 不支持 FP8,需 4 机 32 卡
- 复现价值: 高(含完整命令和硬件要求)
- 建议分类:
inference-engineeringsglangdeepseekdistributed-inferencefp8
条目 C: DeepSeek-R1 满血版推理部署与优化
- 来源: CSDN ·
Code1994· "谈谈DeepSeek-R1满血版推理部署和优化" - URL:
https://blog.csdn.net/Code1994/article/details/145609525 - 来源 2: 得物技术 · "从大模型性能优化到DeepSeek部署"
- URL:
https://tech.dewu.com/article?id=166 - 可信度: ⭐⭐⭐⭐ | 工程价值: 高(含推理引擎架构解析)
- 核心观点:
- 从成本角度:私有化部署选 vLLM 或未来支持 PP 并行的 SGLang 性价比更高,省去专用 GPU RDMA 网络成本
- 推理引擎核心模块:接入层(请求格式转换)→ 调度器(动态调整输入输出)→ 模型推理(CUDA 调用)→ 显存管理(解决碎片化)
- vLLM 1.0 与 SGLang 的基础架构均为上述四模块设计
- SGLang 的 RadixAttention 实测:比 vLLM 0.5.0 耗时快 30%、吞吐高 1.5 倍(得益于跨请求共享前缀)
- 复现价值: 高(架构分析清晰)
- 建议分类:
inference-engineeringdeepseekvllmsglangarchitecture
条目 D: openEuler + vLLM 部署 DeepSeek(鲲鹏 ARM + NVIDIA)
- 来源: openEuler 官方博客 · "DeepSeek专栏2:vLLM 部署指南(鲲鹏+NVIDIA)"
- URL:
https://www.openeuler.org/zh/blog/03-DeepSeek2/2.html - 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 高(官方文档,含硬件规格表)
- 核心观点:
- ARM 架构(鲲鹏 920)CPU 推理规格明确:DeepSeek-R1-Distill-Qwen-7B 需 128 核 + 32GB 内存
- GPU 推理规格:DeepSeek-R1-Distill-Qwen-7B 至少 32GB 显存
- vLLM 在 ARM 需源码编译:
VLLM_TARGET_DEVICE=cpu pip install -e . - 复现价值: 高(含硬件规格表和完整安装命令)
- 建议分类:
inference-engineeringvllmdeepseekarmdeployment
条目 E: vLLM + SGLang 公司化融资(2026-02)
- 来源: 博客园 · GPUStack · "vLLM、SGLang 融资背后,AI 推理正在走向系统化与治理"
- URL:
https://www.cnblogs.com/gpustack/p/archive/2026/02/03 - 可信度: ⭐⭐⭐⭐ | 工程价值: 中(行业动态,但含 GPUStack 自有产品软文)
- 核心观点:
- vLLM 核心团队成立 Inferact,融资 1.5 亿美元,估值 8 亿美元
- SGLang 团队成立 RadixArk,融资 4 亿美元
- AI 推理赛道正从"开源项目"向"商业化公司"演进
- 建议分类:
ai-industryinferencefundingvllmsglang
二、RAG 2026 新范式(CSDN DeepSeek 社区 + SegmentFault)
2.1 高价值条目
条目 F: Graph-RAG → Agentic RAG → 长期记忆 → 无检索推理
- 来源: CSDN DeepSeek 社区 · "Graph-RAG到Agentic RAG,2026年知识检索四大新范式深度解析与选型指南"
- URL:
https://deepseek.csdn.net/6a29183410ee7a33f27a54cf.html - 可信度: ⭐⭐⭐⭐ | 工程价值: 高(系统梳理,含工具速览和选型建议)
- 核心观点:
范式一:Graph-RAG(解决"知识结构"问题) - 构建实体-关系图,检索变为路径推理,支持多跳 reasoning - 落地建议:适合大量实体关系的知识库(组织架构、技术依赖、法律条文引用);不必一上来重建整个知识库,先对高频复杂查询场景单独构建
范式二:Agentic RAG(解决"流程架构"问题) - RAG 从"前置步骤"升级为"Agent 思考循环的一部分":思考 → 检索 → 再思考 → 再检索 → 行动 - 检索策略需要动态调整;上下文管理变得关键;工具调用与检索需统一调度 - 两种主流实现:Planning-then-Retrieval(任务明确)vs Iterative-Retrieval(开放探索) - 关键:必须设计清晰的"停止检索"条件,避免无限循环
范式三:长期记忆系统(从"知识补丁"到"认知结构") - 三层记忆:情景记忆(交互历史)→ 语义记忆(结构化知识)→ 过程记忆(行为模式) - claude-mem(80.8k 星):跨代理会话持久记忆层,自动捕获工具使用和决策过程 - OpenMemory:按情景/语义/过程分扇区建模,支持 GitHub、Notion、Drive 连接 - 注意事项:隐私问题、记忆不是越多越好、需要遗忘机制
范式四:无检索推理(RAG 被更高层架构吸收) - 小模型蒸馏内化专域知识 + 长上下文(百万 token 级)→ 某些场景可直接"丢进"上下文 - RAG 不会消失,但会下沉为基础能力层
2026 开源工具速览: - zvec(9.8k 星):阿里轻量嵌入式向量数据库,嵌入应用而非独立服务 - langextract(36.8k 星):Google Python 库,用 LLM 从非结构化文本提取结构化信息 - chandra(11.1k 星):Marker/Surya 团队 OCR/文档模型,支持 90+ 语言
选型建议: - 文档问答/FAQ → 传统 RAG - 多实体关联分析 → Graph-RAG - 多步骤任务自动化 → Agentic RAG - 长期运营型 AI 助手 → 长期记忆系统 - 专域小模型/短文档 → 无检索推理 - 实践原则:从最简单的范式开始,不要一上来 Graph-RAG + Agentic RAG + 长期记忆全家桶
- 建议分类:
raggraph-ragagentic-ragmemory-system2026-trends
条目 G: RAG 评价指标演进
- 来源: 同上 CSDN DeepSeek 社区文章 + SegmentFault "2026年RAG技术最新进展与落地实践指南"
- URL:
https://segmentfault.com/a/1190000047621497 - 核心观点:
- 旧指标(Recall、MRR、BLEU)正在被取代
- 新关注点:任务完成率、决策正确率、长期一致性
- 评价维度已从"检索准确率"转向"系统可靠性"
- 建议分类:
ragevaluationmetrics
三、Substack 高质量来源追踪
3.1 AI Agent 2026 学习路径与框架演进
- 来源:
AI Agents Simplified· Kalyan KS · "The 2026 Path to Learning AI Agents" - URL:
https://aiagentssimplified.substack.com/p/the-2026-path-to-learning-ai-agents - 可信度: ⭐⭐⭐⭐ | 洞察价值: 高
- 核心观点:
- AI Agent 演进时间线:
- 2020-2022:stateless LLM wrappers,prompt 驱动,脆弱
- 2023:工具使用 + 记忆 wrapper,LangChain/AutoGen 出现
- 2024:图编排(LangGraph/CrewAI),多代理工作流
- 2025:MCP 标准化工具访问 + 结构化记忆 + 自主循环 → 生产就绪
- 2026:协调集群(planner/memory/verifier),全多模态 + OS 级能力
- 2026 AI Agent 工程师核心技能栈:
- System design:编排 LLM、工具、数据库、子代理
- Tool & contract design:严格 schema 定义输入/输出
- Retrieval engineering:chunking、embeddings、reranking
- Reliability engineering:重试、超时、退避、熔断
- Security:prompt 注入防御、输入验证、输出过滤
- Evaluation & observability:tracing、logging、metrics
- Product thinking:置信度信号、升级机制、信任建立
- 高代码框架:Claude Agent SDK(Python SDK + 结构化工具调用)
- 视觉原型:LangFlow(拖拽 + LangChain 组件)
- 后续行动: 需核验 MCP 2026 最新规范文档
- 建议分类:
agentmcp2026-trendsframework
3.2 CES 2026 NVIDIA AI 产品线
- 来源:
saiampathak· "2026 - When Agents Start 'Hanging Out' Without Us" - URL:
https://saiyampathak.substack.com/p/2026-when-agents-start-hanging-out - 可信度: ⭐⭐⭐⭐ | 洞察价值: 高
- 核心观点:
- NVIDIA Rubin 平台:面向大规模训练 + 低成本推理
- Nemotron agentic & multimodal RAG 模型:13 个开源模型,涵盖 agentic 和 multimodal RAG
- Nemotron Speech ASR:低延迟,专为实时语音 agent、转录、边缘设计;MLX 构建支持全本地运行
- Llama Nemotron RAG 模型:小 multimodal 模型(PDF/视觉文档 RAG),image+text+layout 合并为单一向量 embedding + reranker;检索精度提升 6-7%,降低幻觉;可在普通 GPU 上运行
- Anthropic Agent Eval 最佳实践:
- eval harness 需多轮运行、记录完整 transcript/trajectory
- 同时评估结果(outcome)和过程(process)
- 混合deterministic测试 + LLM rubric grader + 人工校准
- 从小规模开始(20-50 个真实失败 case)
- 跟踪 pass@k(至少一次成功)和 pass^k(一致性)
- 后续行动: 建议精读 Anthropic 官方 agent eval 文档
- 建议分类:
nvidianemotronragspeechces2026agent-eval
3.3 Qwen3.5-Omni / Qwen3.6-Plus / GLM-5V-Turbo / llama.cpp 100k Stars
- 来源:
AIxFunda· Kalyan KS · "Top LLM, RAG and Agent Updates of this week (April Week 1, 2026)" - URL:
https://aixfunda.substack.com/p/top-llm-rag-and-agent-updates-of-0d2 - 可信度: ⭐⭐⭐ | 洞察价值: 中
- 核心观点:
- Qwen3.5-Omni:阿里巴巴原生多模态,实时音视频交互,113 种语言,支持 Hugging Face demo
- Qwen3.6-Plus:1M token 上下文,Agentic 编程性能强,OpenRouter 免费访问
- Z.ai GLM-5V-Turbo:图片/视频/design drafts → 代码,Design2Code 94.8%
- llama.cpp:100k GitHub stars(Georgi Gerganov 创建,本地 LLM 推理领先引擎)
- LiquidAI LFM2.5-350M:350M 参数,专为 agentic loops、数据提取、工具调用设计
- 建议分类:
qwenmultimodalllama.cppmodel-release2026
3.4 RAG 全面指南(语义 chunking + hybrid search + reranker)
- 来源:
AI with Aish· Aishwarya Srinivasan · "All you need to know about RAG (in 2026)" - URL:
https://aishwaryasrinivasan.substack.com/p/all-you-need-to-know-about-rag-in - 可信度: ⭐⭐⭐⭐ | 洞察价值: 高(付费内容摘要)
- 核心观点:
- Cross-Encoder Reranker:同时处理(Query, Document)对,理解实际语义关系
- 2026 Pipeline:Hybrid Search 召回 Top 100 → Re-Ranker(BGE-Reranker/Cohere Rerank 3.5)→ 保留 Top 5-10 给 LLM
- 语义 Chunking:用模型评估连续句子的 embedding 余弦距离,超过阈值则断点
- Small-to-Big 策略:索引细粒度"子"块(100 tokens),检索命中后召回完整父文档
- Hybrid Search + RRF:BM25(关键词) + 向量检索,Reciprocal Rank Fusion 融合
- 建议分类:
ragchunkingrerankerhybrid-search2026
3.5 Agent 框架对比(LangChain vs LangGraph vs LlamaIndex)
- 来源:
alphacorp.ai· "RAG Frameworks 2026: Top 5 Ranked for Production AI" - URL:
https://alphacorp.ai/blog/rag-frameworks-top-5-picks-in-2026 - 可信度: ⭐⭐⭐⭐ | 洞察价值: 高
- 核心观点:
- LangChain:编排灵活性最强,工具调用/多步骤链/会话记忆/agent 循环,LangSmith 提供 tracing/eval/debug
- LangGraph:图执行,有状态持久化多步骤 agent,适合复杂长时运行工作流
- LlamaIndex:检索优先,ingestion/indexing/query 优化更强,数据中心场景更适合
- 实操建议:复杂 agent 应用中检索只是多步骤之一 → LangChain;纯文档问答 → LlamaIndex;很多团队两者共用
- Naive RAG 在 2026 年已过时(对于严肃应用)
- 建议分类:
raglangchainlanggraphllamaindexframework2026
四、分类标签汇总
| 标签 | 条目 |
|---|---|
inference-engineering |
A, B, C, D, E |
vllm |
A, C, D, E |
sglang |
A, B, C, E |
deepseek |
B, C, D |
distributed-inference |
B |
fp8 |
B |
rag |
F, G, 3.4, 3.5 |
graph-rag |
F, G |
agentic-rag |
F, G, 3.5 |
memory-system |
F |
agent |
3.1, 3.2 |
mcp |
3.1 |
nvidia |
3.2 |
qwen |
3.3 |
multimodal |
3.3 |
llama.cpp |
3.3 |
agent-eval |
3.2 |
2026-trends |
F, 3.1, 3.3, 3.5 |
ai-industry |
E |
evaluation |
G |
chunking |
3.4 |
reranker |
3.4 |
hybrid-search |
3.4 |
langchain |
3.5 |
langgraph |
3.5 |
llamaindex |
3.5 |
五、本次建议写入路径
写入路径: /shared/research-kb/inbox/jay/2026-06-13-inference-rag-agent-trends.md
是否需要精读/审稿/主题页更新:
- ✅ 建议精读: Anthropic 官方 agent eval 文档(条目 3.2)
- ✅ 建议审稿: MCP 2026 最新规范(条目 3.1)
- ✅ 建议主题页更新: inference-engineering、rag、agent 三个主题页可纳入本次新条目
- ⚠️ CSDN 无法直接抓取:部分 CSDN URL 被 403/WAF 拦截,建议使用火山引擎/博客园等可访问镜像补充
Jay · 2026-06-13 · 高频运营