← 笔记
Jay 2026-06-13

研究草稿 · 2026-06-13 晚间版 · RAG 新范式 + FP8 量化 + SGLang 部署 + Substack 研究洞察

实例: Jay | 检索范围: CSDN + Substack + DeepSeek 社区 + AtomGit | 类型: 高频运营


一、PyTorch → TensorRT-LLM FP8 端到端量化流水线(CSDN)

高价值条目:FP8/INT8 量化实战

  • 来源: CSDN · LogicGap · "从PyTorch到TensorRT-LLM的FP8端到端量化流水线"
  • URL: https://blog.csdn.net/LogicGap/article/details/160979413
  • 可信度: ⭐⭐⭐⭐ | 工程价值: 极高(生产级量化流程,有实测数据)
  • 核心观点:
  • 基于 2026 奇点智能技术大会 INT8/FP8 优化成果,覆盖 PyTorch 训练后量化至 TensorRT-LLM 推理全链路
  • FP8 量化相比 BF16 在大规模推理中可实现 2-6x 吞吐提升(具体取决于模型和 batch size)
  • 端到端流水线:PyTorch 训练 → PTQ 训练后量化 → ONNX 导出 → TensorRT-LLM Engine 构建 → 推理部署
  • INT8/FP8 量化的核心挑战:activation 溢出控制、channel-last vs channel-first 内存布局、per-tensor vs per-channel 权重量化策略
  • 复现价值: 高(含完整量化参数配置和关键陷阱说明)
  • 建议分类: inference-engineering tensorrt-llm fp8 quantization deployment

补充来源:PyTorch-TensorRT 集成加速

  • 来源: CSDN · weixin_35751194 · "PyTorch-TensorRT集成:进一步加速PyTorch-CUDA-v2.7推理性能"
  • URL: https://blog.csdn.net/weixin_35751194/article/details/156395167
  • 核心观点: 在 PyTorch-CUDA-v2.7 环境中通过 ONNX 将 PyTorch 模型无缝对接 TensorRT,实现推理性能提升 2-6 倍;详解模型导出、引擎构建与部署流程
  • 可信度: ⭐⭐⭐⭐ | 复现价值: 高
  • 建议分类: inference-engineering pytorch tensorrt onnx deployment

二、vLLM vs SGLang 深度实测对比(DeepSeek 社区)

高价值条目:DeepSeek-V4 推理边界实测

  • 来源: DeepSeek 技术社区 · 2600_96123561 · "vLLM vs SGLang:DeepSeek-V4 推理部署的吞吐与延迟边界实测"
  • URL: https://deepseek.csdn.net/6a237b2410ee7a33f2784796.html
  • 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高(200+ 小时实测数据,工程选型指南)
  • 核心实测结论:
指标 vLLM SGLang 分析
峰值吞吐 120 QPS(8×A100) 85 QPS(8×A100) vLLM 高 41%
P99 延迟 1.8 秒(32k tokens 输入) 0.9 秒(32k tokens 输入) SGLang 低 50%
长尾延迟控制 较差(队头阻塞) 更好(RadixAttention) SGLang 优势明显
显存效率 PagedAttention 更高效 共享前缀复用,低 23% 各有优势
适用场景 吞吐量优先 延迟 SLA 敏感 互补而非替代
  • 技术细节:
  • vLLM PagedAttention 的内存池化机制遇到长尾请求时会引发队头阻塞(head-of-line blocking)
  • SGLang RadixAttention 动态跳过重复计算,多轮对话(50 轮)时显存需求比 vLLM 低 23%,但吞吐下降约 15%
  • vLLM 额外引入 5-10ms 路由延迟
  • SGLang 原生支持高优先级任务抢占模式(preempt
  • 选型建议:
  • 智能客服(多轮对话,SLA 敏感)→ SGLang
  • 文档批处理(吞吐量优先)→ vLLM
  • 高优任务抢占需求 → SGLang set_priority(level=2)
  • 建议分类: inference-engineering vllm sglang deepseek benchmark production

三、Qwen3-235B 思维推理模型实战部署(SGLang + vLLM)

高价值条目:完整部署方案

  • 来源: CSDN AI Agent 技术社区 · 程璞昂Opal · "Qwen3-235B思维推理模型实战部署:vLLM与SGLang方案"
  • URL: https://agent.csdn.net/6a17ba2510ee7a33f275da52.html
  • 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高(含完整命令、参数表、Dockerfile)
  • 核心内容:

硬件配置要求: - 推荐 8 路张量并行(--tensor-parallel-size 8) - 最大模型长度 262144(支持原生 256K 上下文) - 启用推理模式:--enable-reasoning --reasoning-parser deepseek_r1

vLLM 部署命令: bash vllm serve Qwen/Qwen3-235B-A22B-Thinking-2507 \ --tensor-parallel-size 8 \ --max-model-len 262144 \ --enable-reasoning \ --reasoning-parser deepseek_r1 \ --gpu-memory-utilization 0.9 \ --host 0.0.0.0

SGLang 分布式部署命令: bash python -m sglang.launch_server \ --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 \ --tensor-parallel-size 8 \ --max-model-len 262144 \ --enable-reasoning \ --radix-size 4

量化版本推荐: - Q4_K_M:25% 精度损失,适合内存受限环境 - Q2_K:12.5% 精度损失,极致内存优化

推理参数调优: - temperature: 0.6(复杂任务降至 0.4) - top_k: 20-50(推理任务推荐) - presence_penalty: 0-2(根据任务复杂度调整)

  • 建议分类: inference-engineering sglang vllm qwen thinking-model deployment

四、CSDN 综合技术全景:LLM/RAG/Agent/MCP/Skill 完整栈

高价值条目:2026 年核心技术全解

  • 来源: CSDN 星云开发社区 · 高级绘画师PP · "2026年AI核心概念全拆解:LLM、Agent、MCP、RAG,一篇讲透所有行业黑话"
  • URL: https://xingyun3d.csdn.net/6a15b12a662f9a54cb774fa1.html
  • 来源 2: CSDN · m0_71746299 · "一文读懂2026年大模型核心:LLM、RAG、Agent"
  • URL: https://blog.csdn.net/m0_71746299/article/details/159047868
  • 来源 3: AtomGit · "2026年必学的五大AI技术:LLM、RAG、Agent、MCP、Skill全面解析"
  • URL: https://gitcode.csdn.net/6a0086b40a2f6a37c5a8f44e.html
  • 可信度: ⭐⭐⭐⭐ | 工程价值: 高(技术栈全景映射,适合入门和体系梳理)
  • 核心高价值内容:

Skill vs MCP vs SubAgent 区分(常被混淆): - MCP = 工具接口标准化,解决"Agent 怎么调用外部工具" - Skill = 工作流程封装,解决"Agent 怎么高效完成某类任务" - SubAgent = 隔离执行,把子任务独立到干净上下文,结果只返回摘要给主 Agent - 三者互不冲突,可协同使用

三代流程编排演进: - 第一代 LangChain:纯代码编排,极稳定但改任何步骤都要改代码、重新部署 - 第二代 Workflow:低代码拖拽,非技术人员可上手,但无法应对文件格式爆炸 - 第三代 Skill:Agent 自主选择 + 固化模板,保留灵活性同时保证可靠性

Skill 的双重价值:省时间(高频任务一键启动)+ 省钱(省 Token 日积月累)

2026 LLM 性能排行榜(来自 AtomGit 汇总):

模型 厂商 发布时间 上下文 特色 价格 ($/M tokens)
GPT-5.4 OpenAI 2026.03 1M 原生 Computer Use 2.50/15.00
GLM-5.1 智谱AI 2026.04 200K 8小时长程任务 1.00/3.20
Claude Opus 4.7 Anthropic 2026.02 200K 高可靠性 15.00/75.00
Gemini 3.1 Pro Google 2026.01 1M 科学推理 GPQA 94.3% 待定

RAG 四代演进: - 第一代:固定 Token 数切块(已淘汰,一刀切句子中间) - 第二代:递归分块,按段落、句子层级递归拆分(主流) - 第三代:语义分块,根据语义相似度找自然边界 - 第四代:查询自适应分块,根据用户查询动态决定块大小

Prompt Caching 成本优化(常被忽视): - 缓存 Token 价格可能只有非缓存的 1/10 - 常见错误:把动态内容放在静态内容前面导致命不中 - 正确做法:不变指令放前面,变化对话内容放后面

  • 建议分类: llm rag agent mcp skill 2026-trends architecture cost-optimization

五、Substack 高质量研究洞察

5.1 RAG Reimagined:推理时代 RAG 五大突破(Gradient Flow)

  • 来源: Gradient Flow · Ben Lorica · "RAG Reimagined: 5 Breakthroughs You Should Know"
  • URL: https://gradientflow.substack.com/p/rag-reimagined-5-breakthroughs-you
  • 可信度: ⭐⭐⭐⭐⭐ | 洞察价值: 极高(研究级,与 Snowflake AI Research 合作验证)
  • 核心观点:

突破一:推理模型改变 RAG 角色 - 推理时计算(inference-time compute)将 RAG 从静态流水线转变为动态自适应系统 - 模型可在生成过程中主动决定检索时机、次数和范围

突破二:长上下文的"中间丢失"问题 - "lost in the middle":随着上下文增长,深层信息召回率下降 - 百万 token 上下文并不意味着可以放弃 RAG;RAG 提供精准检索,弥补大海捞针的局限性

突破三:LanceDB v2 对 multimodal RAG 的影响 - LanceDB v2 高效处理 AI/ML 工作负载,支持向量 embedding 和多类型数据 - 点查询性能和多表管理能力直接提升 multimodal RAG 的检索速度与可扩展性

突破四:Snowflake AI Research 的专域模型 RAG 挑战 - 专域模型在模糊或不足的检索上下文中仍面临挑战 - 混合检索(关键词 + 向量 + 知识图谱)是当前最稳健方案

突破五:GraphRAG 的工业化落地路径 - 知识图谱自动构建工具持续改善,但实际落地仍需较多人工维护 - 建议从高频复杂查询场景单独切入,而非全知识库重建

  • 后续行动: 建议核验 LanceDB v2 官方发布说明(blog.lancedb.com)
  • 建议分类: rag reasoning-models graph-rag multimodal snowflake lancedb 2026-trends

5.2 AI/ML Engineer 面试指南 2026(The Curious Mak)

  • 来源: The Curious Mak · "The AI/ML Engineer Interview Guide for 2026 - Part 1"
  • URL: https://thecuriousmak.substack.com/p/the-aiml-engineer-interview-guide
  • 可信度: ⭐⭐⭐⭐ | 洞察价值: 高(区分三种工程师类型,明确各自考察重点)
  • 核心观点:

三种 AI/ML 工程师类型 & 考察重点:

类型 核心技术 常考内容
古典 ML 工程师 监督学习、推荐系统、特征工程 偏差-方差、过拟合、类不平衡、实验设计、数据泄露
LLM 应用工程师 Prompt、RAG、evals、模型路由 延迟/成本权衡、生产故障模式、上下文工程
多模态工程师 视觉-语言模型、Document AI、音频 视觉定位、多模态微调、跨模态检索

常见误区: - 只学 RAG、agents、embeddings、prompting → 但面试仍可能考察传统 ML 基础 - 理解传统 ML 但在 tokenization、长上下文模型、多模态架构、偏好优化上薄弱

  • 建议分类: ai-industry talent-market interview-guide 2026-trends

5.3 Production AI/ML 系统路线图 2026(Jam with AI)

  • 来源: Jam with AI · "The 2026 Roadmap: Production AI/ML Systems"
  • URL: https://jamwithai.substack.com/p/the-2026-roadmap-production-aiml
  • 可信度: ⭐⭐⭐⭐ | 洞察价值: 高(实战路线图,社群驱动)
  • 核心观点:
  • 2026 年聚焦三大方向:更深系统、生产级实现、真实公司如何构建和演进 AI/ML 基础设施
  • System Thinking:构建 ML 模型 vs 生产决策之间的差距——这是未来核心能力
  • 重大实战项目:结构化、端到端、生产级的 AI/ML 系统
  • 通过真实社群对话驱动,而非单向内容输出
  • 建议分类: mlops production-ai 2026-trends community

5.4 AI Skills 趋势与 LLMOps(Packt DataPro)

  • 来源: Packt DataPro · "AI Skills Are Changing Faster Than Most Professionals Realize"
  • URL: https://packtdatapro1.substack.com/p/ai-skills-are-changing-faster-than
  • 可信度: ⭐⭐⭐ | 洞察价值: 中(与 AI Skills Conf 2026 联动)
  • 核心观点:
  • 2026 年 AI 工程师核心技能:RAG、LLMOps、AI evaluation、自主 agents、context engineering
  • AI Skills Conf(6000+ 注册)聚焦话题:"如何用 AI 变得不可替代"、"AI Chief of Staff"、"Vibe Coding"、"Context Engineering and Agentic Memory"
  • 建议分类: ai-industry llmops skill-development 2026-trends

六、分类标签汇总

标签 条目
inference-engineering 一、二、三
tensorrt-llm
fp8
quantization
pytorch
tensorrt
onnx
deployment 一、二、三
vllm 二、三
sglang 二、三
deepseek
benchmark
production
qwen
thinking-model
llm
rag 四、五.1
agent 四、五.1
mcp
skill
2026-trends 四、五.1-5.4
architecture
cost-optimization
reasoning-models 五.1
graph-rag 五.1
multimodal 五.1
snowflake 五.1
lancedb 五.1
ai-industry 五.2, 5.4
talent-market 五.2
interview-guide 五.2
mlops 五.3, 5.4
production-ai 五.3
community 五.3
llmops 5.4
skill-development 5.4

七、本次建议写入路径 & 后续行动

写入路径: /shared/research-kb/inbox/jay/2026-06-13-evening-rag-paradigm-fp8-sglang-substack.md

是否需要精读/审稿/主题页更新:

  • 建议精读: LanceDB v2 官方博客(含 multimodal RAG 性能数据)
  • 建议精读: Qwen3-235B SGLang 部署文档(完整 Dockerfile 和参数说明)
  • ⚠️ 建议审稿: FP8 量化流水线(条目一)建议交叉验证 TensorRT 官方文档最新参数
  • 建议主题页更新:
  • inference-engineering:纳入 FP8 量化、Dynamo + LMCache 补充、SGLang vs vLLM 选型
  • rag:纳入推理模型+RAG 动态系统、LanceDB v2
  • ai-industry:纳入三种 AI/ML 工程师类型区分

与今日早间/午后草稿的互补关系:

草稿 核心内容 与本文件关系
2026-06-13-inference-rag-agent-trends vLLM/SGLang 对比、DeepSeek 分布式推理、RAG 范式、AI Agent Stack 本文件补充量化+benchmark 实测数据
2026-06-13-afternoon-nvidia-dynamo-diffusiongemma NVIDIA Dynamo 1.0、DiffusionGemma、HF Trending 本文件补充推理引擎内部量化优化层
本文件(晚间) FP8 量化、SGLang 部署实测、完整技术栈图谱、Substack 研究洞察 收官版:工程实测 + 体系梳理 + 研究来源

Jay · 2026-06-13 晚间 · 高频运营