研究草稿 · 2026-06-13 · LLM推理框架 vs RAG新范式 vs Agent工具栈

实例: Jay | 检索范围: CSDN + Substack + 火山引擎/博客园/openEuler | 类型: 高频运营

一、LLM 推理框架工程实践（CSDN + 火山引擎/博客园）

1.1 高价值条目

条目 A: 推理引擎系统性对比（2026 版）

来源: CSDN · Wufjsjjx · "LLM推理框架大战2026：谁才是真正的性能王者？"
URL: https://blog.csdn.net/Wufjsjjx/article/details/161567377
来源 2: CSDN · dk_allen · "主流大模型推理部署框架：vLLM、SGLang、TensorRT-LLM、ollama"
URL: https://blog.csdn.net/dk_allen/article/details/161585244
可信度: ⭐⭐⭐⭐ | 工程价值: 高（框架横评，有系统性）
核心观点:
SGLang 核心创新是结构化生成语言（Structured Generation Language），从编程模型层面重新思考 LLM 推理，而非单纯优化底层算子
vLLM 基于 PagedAttention 解决显存碎片；SGLang 在 RadixAttention 上复用不同请求间的共享前缀，吞吐比 vLLM 快 30%，是多卡分布式场景首选
TensorRT-LLM 是 NVIDIA 官方深度优化引擎，适合极致推理性能但迁移成本高
Ollama 定位轻量本地体验，不适合大规模部署
复现价值: 中（对比维度全面，但缺具体 benchmark 数据和命令）
建议分类: inference-engineering vllm sglang framework-comparison

条目 B: DeepSeek-R1 671B 分布式推理（SGLang + 多机多卡）

来源: 火山引擎开发者社区 · 慢慢学AIGC · "DeepSeek 本地部署最佳实践（三）：SGLang + 分布式推理部署满血版模型"
URL: https://developer.volcengine.com/articles/7472267838015668243
可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高（官方推荐配置，含实际命令）
核心观点:
SGLang 与 DeepSeek 团队紧密协作，已实现 DeepSeek V3 FP8 模型在 NVIDIA 和 AMD GPU 的首日支持
SGLang 通过 MLA（Multi Latent Attention）优化 + DP 数据并行注意力机制，是运行 DeepSeek 系列模型的推荐开源推理引擎
多机启动命令示例：python -m sglang.launch_server --model-path DeepSeek-R1 --tp 16 --dist-init-addr master_ip:5000 --nnodes 2 --node-rank 0
IB/RoCE 网卡环境需额外配置 NCCL 环境变量（NCCL_IB_HCA、NCCL_IB_QPS_PER_CONNECTION 等）
最低硬件配置：8 卡 H20（序列长度受限）；推荐 16 卡 H100 或更高；老卡 A100/A800 不支持 FP8，需 4 机 32 卡
复现价值: 高（含完整命令和硬件要求）
建议分类: inference-engineering sglang deepseek distributed-inference fp8

条目 C: DeepSeek-R1 满血版推理部署与优化

来源: CSDN · Code1994 · "谈谈DeepSeek-R1满血版推理部署和优化"
URL: https://blog.csdn.net/Code1994/article/details/145609525
来源 2: 得物技术 · "从大模型性能优化到DeepSeek部署"
URL: https://tech.dewu.com/article?id=166
可信度: ⭐⭐⭐⭐ | 工程价值: 高（含推理引擎架构解析）
核心观点:
从成本角度：私有化部署选 vLLM 或未来支持 PP 并行的 SGLang 性价比更高，省去专用 GPU RDMA 网络成本
推理引擎核心模块：接入层（请求格式转换）→ 调度器（动态调整输入输出）→ 模型推理（CUDA 调用）→ 显存管理（解决碎片化）
vLLM 1.0 与 SGLang 的基础架构均为上述四模块设计
SGLang 的 RadixAttention 实测：比 vLLM 0.5.0 耗时快 30%、吞吐高 1.5 倍（得益于跨请求共享前缀）
复现价值: 高（架构分析清晰）
建议分类: inference-engineering deepseek vllm sglang architecture

条目 D: openEuler + vLLM 部署 DeepSeek（鲲鹏 ARM + NVIDIA）

来源: openEuler 官方博客 · "DeepSeek专栏2：vLLM 部署指南（鲲鹏+NVIDIA）"
URL: https://www.openeuler.org/zh/blog/03-DeepSeek2/2.html
可信度: ⭐⭐⭐⭐⭐ | 工程价值: 高（官方文档，含硬件规格表）
核心观点:
ARM 架构（鲲鹏 920）CPU 推理规格明确：DeepSeek-R1-Distill-Qwen-7B 需 128 核 + 32GB 内存
GPU 推理规格：DeepSeek-R1-Distill-Qwen-7B 至少 32GB 显存
vLLM 在 ARM 需源码编译：VLLM_TARGET_DEVICE=cpu pip install -e .
复现价值: 高（含硬件规格表和完整安装命令）
建议分类: inference-engineering vllm deepseek arm deployment

条目 E: vLLM + SGLang 公司化融资（2026-02）

来源: 博客园 · GPUStack · "vLLM、SGLang 融资背后，AI 推理正在走向系统化与治理"
URL: https://www.cnblogs.com/gpustack/p/archive/2026/02/03
可信度: ⭐⭐⭐⭐ | 工程价值: 中（行业动态，但含 GPUStack 自有产品软文）
核心观点:
vLLM 核心团队成立 Inferact，融资 1.5 亿美元，估值 8 亿美元
SGLang 团队成立 RadixArk，融资 4 亿美元
AI 推理赛道正从"开源项目"向"商业化公司"演进
建议分类: ai-industry inference funding vllm sglang

二、RAG 2026 新范式（CSDN DeepSeek 社区 + SegmentFault）

2.1 高价值条目

条目 F: Graph-RAG → Agentic RAG → 长期记忆 → 无检索推理

来源: CSDN DeepSeek 社区 · "Graph-RAG到Agentic RAG，2026年知识检索四大新范式深度解析与选型指南"
URL: https://deepseek.csdn.net/6a29183410ee7a33f27a54cf.html
可信度: ⭐⭐⭐⭐ | 工程价值: 高（系统梳理，含工具速览和选型建议）
核心观点:

范式一：Graph-RAG（解决"知识结构"问题） - 构建实体-关系图，检索变为路径推理，支持多跳 reasoning - 落地建议：适合大量实体关系的知识库（组织架构、技术依赖、法律条文引用）；不必一上来重建整个知识库，先对高频复杂查询场景单独构建

范式二：Agentic RAG（解决"流程架构"问题） - RAG 从"前置步骤"升级为"Agent 思考循环的一部分"：思考 → 检索 → 再思考 → 再检索 → 行动 - 检索策略需要动态调整；上下文管理变得关键；工具调用与检索需统一调度 - 两种主流实现：Planning-then-Retrieval（任务明确）vs Iterative-Retrieval（开放探索） - 关键：必须设计清晰的"停止检索"条件，避免无限循环

范式三：长期记忆系统（从"知识补丁"到"认知结构"） - 三层记忆：情景记忆（交互历史）→ 语义记忆（结构化知识）→ 过程记忆（行为模式） - claude-mem（80.8k 星）：跨代理会话持久记忆层，自动捕获工具使用和决策过程 - OpenMemory：按情景/语义/过程分扇区建模，支持 GitHub、Notion、Drive 连接 - 注意事项：隐私问题、记忆不是越多越好、需要遗忘机制

范式四：无检索推理（RAG 被更高层架构吸收） - 小模型蒸馏内化专域知识 + 长上下文（百万 token 级）→ 某些场景可直接"丢进"上下文 - RAG 不会消失，但会下沉为基础能力层

2026 开源工具速览: - zvec（9.8k 星）：阿里轻量嵌入式向量数据库，嵌入应用而非独立服务 - langextract（36.8k 星）：Google Python 库，用 LLM 从非结构化文本提取结构化信息 - chandra（11.1k 星）：Marker/Surya 团队 OCR/文档模型，支持 90+ 语言

选型建议: - 文档问答/FAQ → 传统 RAG - 多实体关联分析 → Graph-RAG - 多步骤任务自动化 → Agentic RAG - 长期运营型 AI 助手 → 长期记忆系统 - 专域小模型/短文档 → 无检索推理 - 实践原则：从最简单的范式开始，不要一上来 Graph-RAG + Agentic RAG + 长期记忆全家桶

建议分类: rag graph-rag agentic-rag memory-system 2026-trends

条目 G: RAG 评价指标演进

来源: 同上 CSDN DeepSeek 社区文章 + SegmentFault "2026年RAG技术最新进展与落地实践指南"
URL: https://segmentfault.com/a/1190000047621497
核心观点:
旧指标（Recall、MRR、BLEU）正在被取代
新关注点：任务完成率、决策正确率、长期一致性
评价维度已从"检索准确率"转向"系统可靠性"
建议分类: rag evaluation metrics

三、Substack 高质量来源追踪

3.1 AI Agent 2026 学习路径与框架演进

来源: AI Agents Simplified · Kalyan KS · "The 2026 Path to Learning AI Agents"
URL: https://aiagentssimplified.substack.com/p/the-2026-path-to-learning-ai-agents
可信度: ⭐⭐⭐⭐ | 洞察价值: 高
核心观点:
AI Agent 演进时间线：
- 2020-2022：stateless LLM wrappers，prompt 驱动，脆弱
- 2023：工具使用 + 记忆 wrapper，LangChain/AutoGen 出现
- 2024：图编排（LangGraph/CrewAI），多代理工作流
- 2025：MCP 标准化工具访问 + 结构化记忆 + 自主循环 → 生产就绪
- 2026：协调集群（planner/memory/verifier），全多模态 + OS 级能力
2026 AI Agent 工程师核心技能栈：
- System design：编排 LLM、工具、数据库、子代理
- Tool & contract design：严格 schema 定义输入/输出
- Retrieval engineering：chunking、embeddings、reranking
- Reliability engineering：重试、超时、退避、熔断
- Security：prompt 注入防御、输入验证、输出过滤
- Evaluation & observability：tracing、logging、metrics
- Product thinking：置信度信号、升级机制、信任建立
高代码框架：Claude Agent SDK（Python SDK + 结构化工具调用）
视觉原型：LangFlow（拖拽 + LangChain 组件）
后续行动: 需核验 MCP 2026 最新规范文档
建议分类: agent mcp 2026-trends framework

3.2 CES 2026 NVIDIA AI 产品线

来源: saiampathak · "2026 - When Agents Start 'Hanging Out' Without Us"
URL: https://saiyampathak.substack.com/p/2026-when-agents-start-hanging-out
可信度: ⭐⭐⭐⭐ | 洞察价值: 高
核心观点:
NVIDIA Rubin 平台：面向大规模训练 + 低成本推理
Nemotron agentic & multimodal RAG 模型：13 个开源模型，涵盖 agentic 和 multimodal RAG
Nemotron Speech ASR：低延迟，专为实时语音 agent、转录、边缘设计；MLX 构建支持全本地运行
Llama Nemotron RAG 模型：小 multimodal 模型（PDF/视觉文档 RAG），image+text+layout 合并为单一向量 embedding + reranker；检索精度提升 6-7%，降低幻觉；可在普通 GPU 上运行
Anthropic Agent Eval 最佳实践：
- eval harness 需多轮运行、记录完整 transcript/trajectory
- 同时评估结果（outcome）和过程（process）
- 混合deterministic测试 + LLM rubric grader + 人工校准
- 从小规模开始（20-50 个真实失败 case）
- 跟踪 pass@k（至少一次成功）和 pass^k（一致性）
后续行动: 建议精读 Anthropic 官方 agent eval 文档
建议分类: nvidia nemotron rag speech ces2026 agent-eval

3.3 Qwen3.5-Omni / Qwen3.6-Plus / GLM-5V-Turbo / llama.cpp 100k Stars

来源: AIxFunda · Kalyan KS · "Top LLM, RAG and Agent Updates of this week (April Week 1, 2026)"
URL: https://aixfunda.substack.com/p/top-llm-rag-and-agent-updates-of-0d2
可信度: ⭐⭐⭐ | 洞察价值: 中
核心观点:
Qwen3.5-Omni：阿里巴巴原生多模态，实时音视频交互，113 种语言，支持 Hugging Face demo
Qwen3.6-Plus：1M token 上下文，Agentic 编程性能强，OpenRouter 免费访问
Z.ai GLM-5V-Turbo：图片/视频/design drafts → 代码，Design2Code 94.8%
llama.cpp：100k GitHub stars（Georgi Gerganov 创建，本地 LLM 推理领先引擎）
LiquidAI LFM2.5-350M：350M 参数，专为 agentic loops、数据提取、工具调用设计
建议分类: qwen multimodal llama.cpp model-release 2026

3.4 RAG 全面指南（语义 chunking + hybrid search + reranker）

来源: AI with Aish · Aishwarya Srinivasan · "All you need to know about RAG (in 2026)"
URL: https://aishwaryasrinivasan.substack.com/p/all-you-need-to-know-about-rag-in
可信度: ⭐⭐⭐⭐ | 洞察价值: 高（付费内容摘要）
核心观点:
Cross-Encoder Reranker：同时处理(Query, Document)对，理解实际语义关系
2026 Pipeline：Hybrid Search 召回 Top 100 → Re-Ranker（BGE-Reranker/Cohere Rerank 3.5）→ 保留 Top 5-10 给 LLM
语义 Chunking：用模型评估连续句子的 embedding 余弦距离，超过阈值则断点
Small-to-Big 策略：索引细粒度"子"块（100 tokens），检索命中后召回完整父文档
Hybrid Search + RRF：BM25（关键词） + 向量检索，Reciprocal Rank Fusion 融合
建议分类: rag chunking reranker hybrid-search 2026

3.5 Agent 框架对比（LangChain vs LangGraph vs LlamaIndex）

来源: alphacorp.ai · "RAG Frameworks 2026: Top 5 Ranked for Production AI"
URL: https://alphacorp.ai/blog/rag-frameworks-top-5-picks-in-2026
可信度: ⭐⭐⭐⭐ | 洞察价值: 高
核心观点:
LangChain：编排灵活性最强，工具调用/多步骤链/会话记忆/agent 循环，LangSmith 提供 tracing/eval/debug
LangGraph：图执行，有状态持久化多步骤 agent，适合复杂长时运行工作流
LlamaIndex：检索优先，ingestion/indexing/query 优化更强，数据中心场景更适合
实操建议：复杂 agent 应用中检索只是多步骤之一 → LangChain；纯文档问答 → LlamaIndex；很多团队两者共用
Naive RAG 在 2026 年已过时（对于严肃应用）
建议分类: rag langchain langgraph llamaindex framework 2026

四、分类标签汇总

标签	条目
`inference-engineering`	A, B, C, D, E
`vllm`	A, C, D, E
`sglang`	A, B, C, E
`deepseek`	B, C, D
`distributed-inference`	B
`fp8`	B
`rag`	F, G, 3.4, 3.5
`graph-rag`	F, G
`agentic-rag`	F, G, 3.5
`memory-system`	F
`agent`	3.1, 3.2
`mcp`	3.1
`nvidia`	3.2
`qwen`	3.3
`multimodal`	3.3
`llama.cpp`	3.3
`agent-eval`	3.2
`2026-trends`	F, 3.1, 3.3, 3.5
`ai-industry`	E
`evaluation`	G
`chunking`	3.4
`reranker`	3.4
`hybrid-search`	3.4
`langchain`	3.5
`langgraph`	3.5
`llamaindex`	3.5

五、本次建议写入路径

写入路径: /shared/research-kb/inbox/jay/2026-06-13-inference-rag-agent-trends.md

是否需要精读/审稿/主题页更新: - ✅ 建议精读: Anthropic 官方 agent eval 文档（条目 3.2） - ✅ 建议审稿: MCP 2026 最新规范（条目 3.1） - ✅ 建议主题页更新: inference-engineering、rag、agent 三个主题页可纳入本次新条目 - ⚠️ CSDN 无法直接抓取：部分 CSDN URL 被 403/WAF 拦截，建议使用火山引擎/博客园等可访问镜像补充

Jay · 2026-06-13 · 高频运营