研究草稿 · 2026-06-13 晚间版 · RAG 新范式 + FP8 量化 + SGLang 部署 + Substack 研究洞察

实例: Jay | 检索范围: CSDN + Substack + DeepSeek 社区 + AtomGit | 类型: 高频运营

一、PyTorch → TensorRT-LLM FP8 端到端量化流水线（CSDN）

高价值条目：FP8/INT8 量化实战

来源: CSDN · LogicGap · "从PyTorch到TensorRT-LLM的FP8端到端量化流水线"
URL: https://blog.csdn.net/LogicGap/article/details/160979413
可信度: ⭐⭐⭐⭐ | 工程价值: 极高（生产级量化流程，有实测数据）
核心观点:
基于 2026 奇点智能技术大会 INT8/FP8 优化成果，覆盖 PyTorch 训练后量化至 TensorRT-LLM 推理全链路
FP8 量化相比 BF16 在大规模推理中可实现 2-6x 吞吐提升（具体取决于模型和 batch size）
端到端流水线：PyTorch 训练 → PTQ 训练后量化 → ONNX 导出 → TensorRT-LLM Engine 构建 → 推理部署
INT8/FP8 量化的核心挑战：activation 溢出控制、channel-last vs channel-first 内存布局、per-tensor vs per-channel 权重量化策略
复现价值: 高（含完整量化参数配置和关键陷阱说明）
建议分类: inference-engineering tensorrt-llm fp8 quantization deployment

补充来源：PyTorch-TensorRT 集成加速

来源: CSDN · weixin_35751194 · "PyTorch-TensorRT集成：进一步加速PyTorch-CUDA-v2.7推理性能"
URL: https://blog.csdn.net/weixin_35751194/article/details/156395167
核心观点: 在 PyTorch-CUDA-v2.7 环境中通过 ONNX 将 PyTorch 模型无缝对接 TensorRT，实现推理性能提升 2-6 倍；详解模型导出、引擎构建与部署流程
可信度: ⭐⭐⭐⭐ | 复现价值: 高
建议分类: inference-engineering pytorch tensorrt onnx deployment

二、vLLM vs SGLang 深度实测对比（DeepSeek 社区）

高价值条目：DeepSeek-V4 推理边界实测

来源: DeepSeek 技术社区 · 2600_96123561 · "vLLM vs SGLang：DeepSeek-V4 推理部署的吞吐与延迟边界实测"
URL: https://deepseek.csdn.net/6a237b2410ee7a33f2784796.html
可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高（200+ 小时实测数据，工程选型指南）
核心实测结论:

指标	vLLM	SGLang	分析
峰值吞吐	120 QPS（8×A100）	85 QPS（8×A100）	vLLM 高 41%
P99 延迟	1.8 秒（32k tokens 输入）	0.9 秒（32k tokens 输入）	SGLang 低 50%
长尾延迟控制	较差（队头阻塞）	更好（RadixAttention）	SGLang 优势明显
显存效率	PagedAttention 更高效	共享前缀复用，低 23%	各有优势
适用场景	吞吐量优先	延迟 SLA 敏感	互补而非替代

技术细节:
vLLM PagedAttention 的内存池化机制遇到长尾请求时会引发队头阻塞（head-of-line blocking）
SGLang RadixAttention 动态跳过重复计算，多轮对话（50 轮）时显存需求比 vLLM 低 23%，但吞吐下降约 15%
vLLM 额外引入 5-10ms 路由延迟
SGLang 原生支持高优先级任务抢占模式（preempt）
选型建议:
智能客服（多轮对话，SLA 敏感）→ SGLang
文档批处理（吞吐量优先）→ vLLM
高优任务抢占需求 → SGLang set_priority(level=2)
建议分类: inference-engineering vllm sglang deepseek benchmark production

三、Qwen3-235B 思维推理模型实战部署（SGLang + vLLM）

高价值条目：完整部署方案

来源: CSDN AI Agent 技术社区 · 程璞昂Opal · "Qwen3-235B思维推理模型实战部署：vLLM与SGLang方案"
URL: https://agent.csdn.net/6a17ba2510ee7a33f275da52.html
可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高（含完整命令、参数表、Dockerfile）
核心内容:

硬件配置要求: - 推荐 8 路张量并行（--tensor-parallel-size 8） - 最大模型长度 262144（支持原生 256K 上下文） - 启用推理模式：--enable-reasoning --reasoning-parser deepseek_r1

vLLM 部署命令: bash vllm serve Qwen/Qwen3-235B-A22B-Thinking-2507 \ --tensor-parallel-size 8 \ --max-model-len 262144 \ --enable-reasoning \ --reasoning-parser deepseek_r1 \ --gpu-memory-utilization 0.9 \ --host 0.0.0.0

SGLang 分布式部署命令: bash python -m sglang.launch_server \ --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 \ --tensor-parallel-size 8 \ --max-model-len 262144 \ --enable-reasoning \ --radix-size 4

量化版本推荐: - Q4_K_M：25% 精度损失，适合内存受限环境 - Q2_K：12.5% 精度损失，极致内存优化

推理参数调优: - temperature: 0.6（复杂任务降至 0.4） - top_k: 20-50（推理任务推荐） - presence_penalty: 0-2（根据任务复杂度调整）

建议分类: inference-engineering sglang vllm qwen thinking-model deployment

四、CSDN 综合技术全景：LLM/RAG/Agent/MCP/Skill 完整栈

高价值条目：2026 年核心技术全解

来源: CSDN 星云开发社区 · 高级绘画师PP · "2026年AI核心概念全拆解：LLM、Agent、MCP、RAG，一篇讲透所有行业黑话"
URL: https://xingyun3d.csdn.net/6a15b12a662f9a54cb774fa1.html
来源 2: CSDN · m0_71746299 · "一文读懂2026年大模型核心：LLM、RAG、Agent"
URL: https://blog.csdn.net/m0_71746299/article/details/159047868
来源 3: AtomGit · "2026年必学的五大AI技术：LLM、RAG、Agent、MCP、Skill全面解析"
URL: https://gitcode.csdn.net/6a0086b40a2f6a37c5a8f44e.html
可信度: ⭐⭐⭐⭐ | 工程价值: 高（技术栈全景映射，适合入门和体系梳理）
核心高价值内容:

Skill vs MCP vs SubAgent 区分（常被混淆）： - MCP = 工具接口标准化，解决"Agent 怎么调用外部工具" - Skill = 工作流程封装，解决"Agent 怎么高效完成某类任务" - SubAgent = 隔离执行，把子任务独立到干净上下文，结果只返回摘要给主 Agent - 三者互不冲突，可协同使用

三代流程编排演进： - 第一代 LangChain：纯代码编排，极稳定但改任何步骤都要改代码、重新部署 - 第二代 Workflow：低代码拖拽，非技术人员可上手，但无法应对文件格式爆炸 - 第三代 Skill：Agent 自主选择 + 固化模板，保留灵活性同时保证可靠性

Skill 的双重价值：省时间（高频任务一键启动）+ 省钱（省 Token 日积月累）

2026 LLM 性能排行榜（来自 AtomGit 汇总）:

模型	厂商	发布时间	上下文	特色	价格 ($/M tokens)
GPT-5.4	OpenAI	2026.03	1M	原生 Computer Use	2.50/15.00
GLM-5.1	智谱AI	2026.04	200K	8小时长程任务	1.00/3.20
Claude Opus 4.7	Anthropic	2026.02	200K	高可靠性	15.00/75.00
Gemini 3.1 Pro	Google	2026.01	1M	科学推理 GPQA 94.3%	待定

RAG 四代演进： - 第一代：固定 Token 数切块（已淘汰，一刀切句子中间） - 第二代：递归分块，按段落、句子层级递归拆分（主流） - 第三代：语义分块，根据语义相似度找自然边界 - 第四代：查询自适应分块，根据用户查询动态决定块大小

Prompt Caching 成本优化（常被忽视）： - 缓存 Token 价格可能只有非缓存的 1/10 - 常见错误：把动态内容放在静态内容前面导致命不中 - 正确做法：不变指令放前面，变化对话内容放后面

建议分类: llm rag agent mcp skill 2026-trends architecture cost-optimization

五、Substack 高质量研究洞察

5.1 RAG Reimagined：推理时代 RAG 五大突破（Gradient Flow）

来源: Gradient Flow · Ben Lorica · "RAG Reimagined: 5 Breakthroughs You Should Know"
URL: https://gradientflow.substack.com/p/rag-reimagined-5-breakthroughs-you
可信度: ⭐⭐⭐⭐⭐ | 洞察价值: 极高（研究级，与 Snowflake AI Research 合作验证）
核心观点:

突破一：推理模型改变 RAG 角色 - 推理时计算（inference-time compute）将 RAG 从静态流水线转变为动态自适应系统 - 模型可在生成过程中主动决定检索时机、次数和范围

突破二：长上下文的"中间丢失"问题 - "lost in the middle"：随着上下文增长，深层信息召回率下降 - 百万 token 上下文并不意味着可以放弃 RAG；RAG 提供精准检索，弥补大海捞针的局限性

突破三：LanceDB v2 对 multimodal RAG 的影响 - LanceDB v2 高效处理 AI/ML 工作负载，支持向量 embedding 和多类型数据 - 点查询性能和多表管理能力直接提升 multimodal RAG 的检索速度与可扩展性

突破四：Snowflake AI Research 的专域模型 RAG 挑战 - 专域模型在模糊或不足的检索上下文中仍面临挑战 - 混合检索（关键词 + 向量 + 知识图谱）是当前最稳健方案

突破五：GraphRAG 的工业化落地路径 - 知识图谱自动构建工具持续改善，但实际落地仍需较多人工维护 - 建议从高频复杂查询场景单独切入，而非全知识库重建

后续行动: 建议核验 LanceDB v2 官方发布说明（blog.lancedb.com）
建议分类: rag reasoning-models graph-rag multimodal snowflake lancedb 2026-trends

5.2 AI/ML Engineer 面试指南 2026（The Curious Mak）

来源: The Curious Mak · "The AI/ML Engineer Interview Guide for 2026 - Part 1"
URL: https://thecuriousmak.substack.com/p/the-aiml-engineer-interview-guide
可信度: ⭐⭐⭐⭐ | 洞察价值: 高（区分三种工程师类型，明确各自考察重点）
核心观点:

三种 AI/ML 工程师类型 & 考察重点:

类型	核心技术	常考内容
古典 ML 工程师	监督学习、推荐系统、特征工程	偏差-方差、过拟合、类不平衡、实验设计、数据泄露
LLM 应用工程师	Prompt、RAG、evals、模型路由	延迟/成本权衡、生产故障模式、上下文工程
多模态工程师	视觉-语言模型、Document AI、音频	视觉定位、多模态微调、跨模态检索

常见误区： - 只学 RAG、agents、embeddings、prompting → 但面试仍可能考察传统 ML 基础 - 理解传统 ML 但在 tokenization、长上下文模型、多模态架构、偏好优化上薄弱

建议分类: ai-industry talent-market interview-guide 2026-trends

5.3 Production AI/ML 系统路线图 2026（Jam with AI）

来源: Jam with AI · "The 2026 Roadmap: Production AI/ML Systems"
URL: https://jamwithai.substack.com/p/the-2026-roadmap-production-aiml
可信度: ⭐⭐⭐⭐ | 洞察价值: 高（实战路线图，社群驱动）
核心观点:
2026 年聚焦三大方向：更深系统、生产级实现、真实公司如何构建和演进 AI/ML 基础设施
System Thinking：构建 ML 模型 vs 生产决策之间的差距——这是未来核心能力
重大实战项目：结构化、端到端、生产级的 AI/ML 系统
通过真实社群对话驱动，而非单向内容输出
建议分类: mlops production-ai 2026-trends community

5.4 AI Skills 趋势与 LLMOps（Packt DataPro）

来源: Packt DataPro · "AI Skills Are Changing Faster Than Most Professionals Realize"
URL: https://packtdatapro1.substack.com/p/ai-skills-are-changing-faster-than
可信度: ⭐⭐⭐ | 洞察价值: 中（与 AI Skills Conf 2026 联动）
核心观点:
2026 年 AI 工程师核心技能：RAG、LLMOps、AI evaluation、自主 agents、context engineering
AI Skills Conf（6000+ 注册）聚焦话题："如何用 AI 变得不可替代"、"AI Chief of Staff"、"Vibe Coding"、"Context Engineering and Agentic Memory"
建议分类: ai-industry llmops skill-development 2026-trends

六、分类标签汇总

标签	条目
`inference-engineering`	一、二、三
`tensorrt-llm`	一
`fp8`	一
`quantization`	一
`pytorch`	一
`tensorrt`	一
`onnx`	一
`deployment`	一、二、三
`vllm`	二、三
`sglang`	二、三
`deepseek`	二
`benchmark`	二
`production`	二
`qwen`	三
`thinking-model`	三
`llm`	四
`rag`	四、五.1
`agent`	四、五.1
`mcp`	四
`skill`	四
`2026-trends`	四、五.1-5.4
`architecture`	四
`cost-optimization`	四
`reasoning-models`	五.1
`graph-rag`	五.1
`multimodal`	五.1
`snowflake`	五.1
`lancedb`	五.1
`ai-industry`	五.2, 5.4
`talent-market`	五.2
`interview-guide`	五.2
`mlops`	五.3, 5.4
`production-ai`	五.3
`community`	五.3
`llmops`	5.4
`skill-development`	5.4

七、本次建议写入路径 & 后续行动

写入路径: /shared/research-kb/inbox/jay/2026-06-13-evening-rag-paradigm-fp8-sglang-substack.md

是否需要精读/审稿/主题页更新:

✅ 建议精读: LanceDB v2 官方博客（含 multimodal RAG 性能数据）
✅ 建议精读: Qwen3-235B SGLang 部署文档（完整 Dockerfile 和参数说明）
⚠️ 建议审稿: FP8 量化流水线（条目一）建议交叉验证 TensorRT 官方文档最新参数
✅ 建议主题页更新:
inference-engineering：纳入 FP8 量化、Dynamo + LMCache 补充、SGLang vs vLLM 选型
rag：纳入推理模型+RAG 动态系统、LanceDB v2
ai-industry：纳入三种 AI/ML 工程师类型区分

与今日早间/午后草稿的互补关系:

草稿	核心内容	与本文件关系
2026-06-13-inference-rag-agent-trends	vLLM/SGLang 对比、DeepSeek 分布式推理、RAG 范式、AI Agent Stack	本文件补充量化+benchmark 实测数据
2026-06-13-afternoon-nvidia-dynamo-diffusiongemma	NVIDIA Dynamo 1.0、DiffusionGemma、HF Trending	本文件补充推理引擎内部量化优化层
本文件（晚间）	FP8 量化、SGLang 部署实测、完整技术栈图谱、Substack 研究洞察	收官版：工程实测 + 体系梳理 + 研究来源

Jay · 2026-06-13 晚间 · 高频运营