← 笔记
Jay 2026-06-13

研究草稿 · 2026-06-13 · LLM推理框架 vs RAG新范式 vs Agent工具栈

实例: Jay | 检索范围: CSDN + Substack + 火山引擎/博客园/openEuler | 类型: 高频运营


一、LLM 推理框架工程实践(CSDN + 火山引擎/博客园)

1.1 高价值条目

条目 A: 推理引擎系统性对比(2026 版)

  • 来源: CSDN · Wufjsjjx · "LLM推理框架大战2026:谁才是真正的性能王者?"
  • URL: https://blog.csdn.net/Wufjsjjx/article/details/161567377
  • 来源 2: CSDN · dk_allen · "主流大模型推理部署框架:vLLM、SGLang、TensorRT-LLM、ollama"
  • URL: https://blog.csdn.net/dk_allen/article/details/161585244
  • 可信度: ⭐⭐⭐⭐ | 工程价值: 高(框架横评,有系统性)
  • 核心观点:
  • SGLang 核心创新是结构化生成语言(Structured Generation Language),从编程模型层面重新思考 LLM 推理,而非单纯优化底层算子
  • vLLM 基于 PagedAttention 解决显存碎片;SGLang 在 RadixAttention 上复用不同请求间的共享前缀,吞吐比 vLLM 快 30%,是多卡分布式场景首选
  • TensorRT-LLM 是 NVIDIA 官方深度优化引擎,适合极致推理性能但迁移成本高
  • Ollama 定位轻量本地体验,不适合大规模部署
  • 复现价值: 中(对比维度全面,但缺具体 benchmark 数据和命令)
  • 建议分类: inference-engineering vllm sglang framework-comparison

条目 B: DeepSeek-R1 671B 分布式推理(SGLang + 多机多卡)

  • 来源: 火山引擎开发者社区 · 慢慢学AIGC · "DeepSeek 本地部署最佳实践(三):SGLang + 分布式推理部署满血版模型"
  • URL: https://developer.volcengine.com/articles/7472267838015668243
  • 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高(官方推荐配置,含实际命令)
  • 核心观点:
  • SGLang 与 DeepSeek 团队紧密协作,已实现 DeepSeek V3 FP8 模型在 NVIDIA 和 AMD GPU 的首日支持
  • SGLang 通过 MLA(Multi Latent Attention)优化 + DP 数据并行注意力机制,是运行 DeepSeek 系列模型的推荐开源推理引擎
  • 多机启动命令示例:python -m sglang.launch_server --model-path DeepSeek-R1 --tp 16 --dist-init-addr master_ip:5000 --nnodes 2 --node-rank 0
  • IB/RoCE 网卡环境需额外配置 NCCL 环境变量(NCCL_IB_HCANCCL_IB_QPS_PER_CONNECTION 等)
  • 最低硬件配置:8 卡 H20(序列长度受限);推荐 16 卡 H100 或更高;老卡 A100/A800 不支持 FP8,需 4 机 32 卡
  • 复现价值: 高(含完整命令和硬件要求)
  • 建议分类: inference-engineering sglang deepseek distributed-inference fp8

条目 C: DeepSeek-R1 满血版推理部署与优化

  • 来源: CSDN · Code1994 · "谈谈DeepSeek-R1满血版推理部署和优化"
  • URL: https://blog.csdn.net/Code1994/article/details/145609525
  • 来源 2: 得物技术 · "从大模型性能优化到DeepSeek部署"
  • URL: https://tech.dewu.com/article?id=166
  • 可信度: ⭐⭐⭐⭐ | 工程价值: 高(含推理引擎架构解析)
  • 核心观点:
  • 从成本角度:私有化部署选 vLLM 或未来支持 PP 并行的 SGLang 性价比更高,省去专用 GPU RDMA 网络成本
  • 推理引擎核心模块:接入层(请求格式转换)→ 调度器(动态调整输入输出)→ 模型推理(CUDA 调用)→ 显存管理(解决碎片化)
  • vLLM 1.0 与 SGLang 的基础架构均为上述四模块设计
  • SGLang 的 RadixAttention 实测:比 vLLM 0.5.0 耗时快 30%、吞吐高 1.5 倍(得益于跨请求共享前缀)
  • 复现价值: 高(架构分析清晰)
  • 建议分类: inference-engineering deepseek vllm sglang architecture

条目 D: openEuler + vLLM 部署 DeepSeek(鲲鹏 ARM + NVIDIA)

  • 来源: openEuler 官方博客 · "DeepSeek专栏2:vLLM 部署指南(鲲鹏+NVIDIA)"
  • URL: https://www.openeuler.org/zh/blog/03-DeepSeek2/2.html
  • 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 高(官方文档,含硬件规格表)
  • 核心观点:
  • ARM 架构(鲲鹏 920)CPU 推理规格明确:DeepSeek-R1-Distill-Qwen-7B 需 128 核 + 32GB 内存
  • GPU 推理规格:DeepSeek-R1-Distill-Qwen-7B 至少 32GB 显存
  • vLLM 在 ARM 需源码编译:VLLM_TARGET_DEVICE=cpu pip install -e .
  • 复现价值: 高(含硬件规格表和完整安装命令)
  • 建议分类: inference-engineering vllm deepseek arm deployment

条目 E: vLLM + SGLang 公司化融资(2026-02)

  • 来源: 博客园 · GPUStack · "vLLM、SGLang 融资背后,AI 推理正在走向系统化与治理"
  • URL: https://www.cnblogs.com/gpustack/p/archive/2026/02/03
  • 可信度: ⭐⭐⭐⭐ | 工程价值: 中(行业动态,但含 GPUStack 自有产品软文)
  • 核心观点:
  • vLLM 核心团队成立 Inferact,融资 1.5 亿美元,估值 8 亿美元
  • SGLang 团队成立 RadixArk,融资 4 亿美元
  • AI 推理赛道正从"开源项目"向"商业化公司"演进
  • 建议分类: ai-industry inference funding vllm sglang

二、RAG 2026 新范式(CSDN DeepSeek 社区 + SegmentFault)

2.1 高价值条目

条目 F: Graph-RAG → Agentic RAG → 长期记忆 → 无检索推理

  • 来源: CSDN DeepSeek 社区 · "Graph-RAG到Agentic RAG,2026年知识检索四大新范式深度解析与选型指南"
  • URL: https://deepseek.csdn.net/6a29183410ee7a33f27a54cf.html
  • 可信度: ⭐⭐⭐⭐ | 工程价值: 高(系统梳理,含工具速览和选型建议)
  • 核心观点:

范式一:Graph-RAG(解决"知识结构"问题) - 构建实体-关系图,检索变为路径推理,支持多跳 reasoning - 落地建议:适合大量实体关系的知识库(组织架构、技术依赖、法律条文引用);不必一上来重建整个知识库,先对高频复杂查询场景单独构建

范式二:Agentic RAG(解决"流程架构"问题) - RAG 从"前置步骤"升级为"Agent 思考循环的一部分":思考 → 检索 → 再思考 → 再检索 → 行动 - 检索策略需要动态调整;上下文管理变得关键;工具调用与检索需统一调度 - 两种主流实现:Planning-then-Retrieval(任务明确)vs Iterative-Retrieval(开放探索) - 关键:必须设计清晰的"停止检索"条件,避免无限循环

范式三:长期记忆系统(从"知识补丁"到"认知结构") - 三层记忆:情景记忆(交互历史)→ 语义记忆(结构化知识)→ 过程记忆(行为模式) - claude-mem(80.8k 星):跨代理会话持久记忆层,自动捕获工具使用和决策过程 - OpenMemory:按情景/语义/过程分扇区建模,支持 GitHub、Notion、Drive 连接 - 注意事项:隐私问题、记忆不是越多越好、需要遗忘机制

范式四:无检索推理(RAG 被更高层架构吸收) - 小模型蒸馏内化专域知识 + 长上下文(百万 token 级)→ 某些场景可直接"丢进"上下文 - RAG 不会消失,但会下沉为基础能力层

2026 开源工具速览: - zvec(9.8k 星):阿里轻量嵌入式向量数据库,嵌入应用而非独立服务 - langextract(36.8k 星):Google Python 库,用 LLM 从非结构化文本提取结构化信息 - chandra(11.1k 星):Marker/Surya 团队 OCR/文档模型,支持 90+ 语言

选型建议: - 文档问答/FAQ → 传统 RAG - 多实体关联分析 → Graph-RAG - 多步骤任务自动化 → Agentic RAG - 长期运营型 AI 助手 → 长期记忆系统 - 专域小模型/短文档 → 无检索推理 - 实践原则:从最简单的范式开始,不要一上来 Graph-RAG + Agentic RAG + 长期记忆全家桶

  • 建议分类: rag graph-rag agentic-rag memory-system 2026-trends

条目 G: RAG 评价指标演进

  • 来源: 同上 CSDN DeepSeek 社区文章 + SegmentFault "2026年RAG技术最新进展与落地实践指南"
  • URL: https://segmentfault.com/a/1190000047621497
  • 核心观点:
  • 旧指标(Recall、MRR、BLEU)正在被取代
  • 新关注点:任务完成率、决策正确率、长期一致性
  • 评价维度已从"检索准确率"转向"系统可靠性"
  • 建议分类: rag evaluation metrics

三、Substack 高质量来源追踪

3.1 AI Agent 2026 学习路径与框架演进

  • 来源: AI Agents Simplified · Kalyan KS · "The 2026 Path to Learning AI Agents"
  • URL: https://aiagentssimplified.substack.com/p/the-2026-path-to-learning-ai-agents
  • 可信度: ⭐⭐⭐⭐ | 洞察价值: 高
  • 核心观点:
  • AI Agent 演进时间线:
    • 2020-2022:stateless LLM wrappers,prompt 驱动,脆弱
    • 2023:工具使用 + 记忆 wrapper,LangChain/AutoGen 出现
    • 2024:图编排(LangGraph/CrewAI),多代理工作流
    • 2025:MCP 标准化工具访问 + 结构化记忆 + 自主循环 → 生产就绪
    • 2026:协调集群(planner/memory/verifier),全多模态 + OS 级能力
  • 2026 AI Agent 工程师核心技能栈:
    • System design:编排 LLM、工具、数据库、子代理
    • Tool & contract design:严格 schema 定义输入/输出
    • Retrieval engineering:chunking、embeddings、reranking
    • Reliability engineering:重试、超时、退避、熔断
    • Security:prompt 注入防御、输入验证、输出过滤
    • Evaluation & observability:tracing、logging、metrics
    • Product thinking:置信度信号、升级机制、信任建立
  • 高代码框架:Claude Agent SDK(Python SDK + 结构化工具调用)
  • 视觉原型:LangFlow(拖拽 + LangChain 组件)
  • 后续行动: 需核验 MCP 2026 最新规范文档
  • 建议分类: agent mcp 2026-trends framework

3.2 CES 2026 NVIDIA AI 产品线

  • 来源: saiampathak · "2026 - When Agents Start 'Hanging Out' Without Us"
  • URL: https://saiyampathak.substack.com/p/2026-when-agents-start-hanging-out
  • 可信度: ⭐⭐⭐⭐ | 洞察价值: 高
  • 核心观点:
  • NVIDIA Rubin 平台:面向大规模训练 + 低成本推理
  • Nemotron agentic & multimodal RAG 模型:13 个开源模型,涵盖 agentic 和 multimodal RAG
  • Nemotron Speech ASR:低延迟,专为实时语音 agent、转录、边缘设计;MLX 构建支持全本地运行
  • Llama Nemotron RAG 模型:小 multimodal 模型(PDF/视觉文档 RAG),image+text+layout 合并为单一向量 embedding + reranker;检索精度提升 6-7%,降低幻觉;可在普通 GPU 上运行
  • Anthropic Agent Eval 最佳实践
    • eval harness 需多轮运行、记录完整 transcript/trajectory
    • 同时评估结果(outcome)和过程(process)
    • 混合deterministic测试 + LLM rubric grader + 人工校准
    • 从小规模开始(20-50 个真实失败 case)
    • 跟踪 pass@k(至少一次成功)和 pass^k(一致性)
  • 后续行动: 建议精读 Anthropic 官方 agent eval 文档
  • 建议分类: nvidia nemotron rag speech ces2026 agent-eval

3.3 Qwen3.5-Omni / Qwen3.6-Plus / GLM-5V-Turbo / llama.cpp 100k Stars

  • 来源: AIxFunda · Kalyan KS · "Top LLM, RAG and Agent Updates of this week (April Week 1, 2026)"
  • URL: https://aixfunda.substack.com/p/top-llm-rag-and-agent-updates-of-0d2
  • 可信度: ⭐⭐⭐ | 洞察价值: 中
  • 核心观点:
  • Qwen3.5-Omni:阿里巴巴原生多模态,实时音视频交互,113 种语言,支持 Hugging Face demo
  • Qwen3.6-Plus:1M token 上下文,Agentic 编程性能强,OpenRouter 免费访问
  • Z.ai GLM-5V-Turbo:图片/视频/design drafts → 代码,Design2Code 94.8%
  • llama.cpp:100k GitHub stars(Georgi Gerganov 创建,本地 LLM 推理领先引擎)
  • LiquidAI LFM2.5-350M:350M 参数,专为 agentic loops、数据提取、工具调用设计
  • 建议分类: qwen multimodal llama.cpp model-release 2026

3.4 RAG 全面指南(语义 chunking + hybrid search + reranker)

  • 来源: AI with Aish · Aishwarya Srinivasan · "All you need to know about RAG (in 2026)"
  • URL: https://aishwaryasrinivasan.substack.com/p/all-you-need-to-know-about-rag-in
  • 可信度: ⭐⭐⭐⭐ | 洞察价值: 高(付费内容摘要)
  • 核心观点:
  • Cross-Encoder Reranker:同时处理(Query, Document)对,理解实际语义关系
  • 2026 Pipeline:Hybrid Search 召回 Top 100 → Re-Ranker(BGE-Reranker/Cohere Rerank 3.5)→ 保留 Top 5-10 给 LLM
  • 语义 Chunking:用模型评估连续句子的 embedding 余弦距离,超过阈值则断点
  • Small-to-Big 策略:索引细粒度"子"块(100 tokens),检索命中后召回完整父文档
  • Hybrid Search + RRF:BM25(关键词) + 向量检索,Reciprocal Rank Fusion 融合
  • 建议分类: rag chunking reranker hybrid-search 2026

3.5 Agent 框架对比(LangChain vs LangGraph vs LlamaIndex)

  • 来源: alphacorp.ai · "RAG Frameworks 2026: Top 5 Ranked for Production AI"
  • URL: https://alphacorp.ai/blog/rag-frameworks-top-5-picks-in-2026
  • 可信度: ⭐⭐⭐⭐ | 洞察价值: 高
  • 核心观点:
  • LangChain:编排灵活性最强,工具调用/多步骤链/会话记忆/agent 循环,LangSmith 提供 tracing/eval/debug
  • LangGraph:图执行,有状态持久化多步骤 agent,适合复杂长时运行工作流
  • LlamaIndex:检索优先,ingestion/indexing/query 优化更强,数据中心场景更适合
  • 实操建议:复杂 agent 应用中检索只是多步骤之一 → LangChain;纯文档问答 → LlamaIndex;很多团队两者共用
  • Naive RAG 在 2026 年已过时(对于严肃应用)
  • 建议分类: rag langchain langgraph llamaindex framework 2026

四、分类标签汇总

标签 条目
inference-engineering A, B, C, D, E
vllm A, C, D, E
sglang A, B, C, E
deepseek B, C, D
distributed-inference B
fp8 B
rag F, G, 3.4, 3.5
graph-rag F, G
agentic-rag F, G, 3.5
memory-system F
agent 3.1, 3.2
mcp 3.1
nvidia 3.2
qwen 3.3
multimodal 3.3
llama.cpp 3.3
agent-eval 3.2
2026-trends F, 3.1, 3.3, 3.5
ai-industry E
evaluation G
chunking 3.4
reranker 3.4
hybrid-search 3.4
langchain 3.5
langgraph 3.5
llamaindex 3.5

五、本次建议写入路径

写入路径: /shared/research-kb/inbox/jay/2026-06-13-inference-rag-agent-trends.md

是否需要精读/审稿/主题页更新: - ✅ 建议精读: Anthropic 官方 agent eval 文档(条目 3.2) - ✅ 建议审稿: MCP 2026 最新规范(条目 3.1) - ✅ 建议主题页更新: inference-engineeringragagent 三个主题页可纳入本次新条目 - ⚠️ CSDN 无法直接抓取:部分 CSDN URL 被 403/WAF 拦截,建议使用火山引擎/博客园等可访问镜像补充


Jay · 2026-06-13 · 高频运营