研究草稿 · 2026-06-13 晚间版 · RAG 新范式 + FP8 量化 + SGLang 部署 + Substack 研究洞察
实例: Jay | 检索范围: CSDN + Substack + DeepSeek 社区 + AtomGit | 类型: 高频运营
一、PyTorch → TensorRT-LLM FP8 端到端量化流水线(CSDN)
高价值条目:FP8/INT8 量化实战
- 来源: CSDN ·
LogicGap· "从PyTorch到TensorRT-LLM的FP8端到端量化流水线" - URL:
https://blog.csdn.net/LogicGap/article/details/160979413 - 可信度: ⭐⭐⭐⭐ | 工程价值: 极高(生产级量化流程,有实测数据)
- 核心观点:
- 基于 2026 奇点智能技术大会 INT8/FP8 优化成果,覆盖 PyTorch 训练后量化至 TensorRT-LLM 推理全链路
- FP8 量化相比 BF16 在大规模推理中可实现 2-6x 吞吐提升(具体取决于模型和 batch size)
- 端到端流水线:PyTorch 训练 → PTQ 训练后量化 → ONNX 导出 → TensorRT-LLM Engine 构建 → 推理部署
- INT8/FP8 量化的核心挑战:activation 溢出控制、channel-last vs channel-first 内存布局、per-tensor vs per-channel 权重量化策略
- 复现价值: 高(含完整量化参数配置和关键陷阱说明)
- 建议分类:
inference-engineeringtensorrt-llmfp8quantizationdeployment
补充来源:PyTorch-TensorRT 集成加速
- 来源: CSDN ·
weixin_35751194· "PyTorch-TensorRT集成:进一步加速PyTorch-CUDA-v2.7推理性能" - URL:
https://blog.csdn.net/weixin_35751194/article/details/156395167 - 核心观点: 在 PyTorch-CUDA-v2.7 环境中通过 ONNX 将 PyTorch 模型无缝对接 TensorRT,实现推理性能提升 2-6 倍;详解模型导出、引擎构建与部署流程
- 可信度: ⭐⭐⭐⭐ | 复现价值: 高
- 建议分类:
inference-engineeringpytorchtensorrtonnxdeployment
二、vLLM vs SGLang 深度实测对比(DeepSeek 社区)
高价值条目:DeepSeek-V4 推理边界实测
- 来源: DeepSeek 技术社区 ·
2600_96123561· "vLLM vs SGLang:DeepSeek-V4 推理部署的吞吐与延迟边界实测" - URL:
https://deepseek.csdn.net/6a237b2410ee7a33f2784796.html - 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高(200+ 小时实测数据,工程选型指南)
- 核心实测结论:
| 指标 | vLLM | SGLang | 分析 |
|---|---|---|---|
| 峰值吞吐 | 120 QPS(8×A100) | 85 QPS(8×A100) | vLLM 高 41% |
| P99 延迟 | 1.8 秒(32k tokens 输入) | 0.9 秒(32k tokens 输入) | SGLang 低 50% |
| 长尾延迟控制 | 较差(队头阻塞) | 更好(RadixAttention) | SGLang 优势明显 |
| 显存效率 | PagedAttention 更高效 | 共享前缀复用,低 23% | 各有优势 |
| 适用场景 | 吞吐量优先 | 延迟 SLA 敏感 | 互补而非替代 |
- 技术细节:
- vLLM PagedAttention 的内存池化机制遇到长尾请求时会引发队头阻塞(head-of-line blocking)
- SGLang RadixAttention 动态跳过重复计算,多轮对话(50 轮)时显存需求比 vLLM 低 23%,但吞吐下降约 15%
- vLLM 额外引入 5-10ms 路由延迟
- SGLang 原生支持高优先级任务抢占模式(
preempt) - 选型建议:
- 智能客服(多轮对话,SLA 敏感)→ SGLang
- 文档批处理(吞吐量优先)→ vLLM
- 高优任务抢占需求 → SGLang
set_priority(level=2) - 建议分类:
inference-engineeringvllmsglangdeepseekbenchmarkproduction
三、Qwen3-235B 思维推理模型实战部署(SGLang + vLLM)
高价值条目:完整部署方案
- 来源: CSDN AI Agent 技术社区 ·
程璞昂Opal· "Qwen3-235B思维推理模型实战部署:vLLM与SGLang方案" - URL:
https://agent.csdn.net/6a17ba2510ee7a33f275da52.html - 可信度: ⭐⭐⭐⭐⭐ | 工程价值: 极高(含完整命令、参数表、Dockerfile)
- 核心内容:
硬件配置要求:
- 推荐 8 路张量并行(--tensor-parallel-size 8)
- 最大模型长度 262144(支持原生 256K 上下文)
- 启用推理模式:--enable-reasoning --reasoning-parser deepseek_r1
vLLM 部署命令:
bash
vllm serve Qwen/Qwen3-235B-A22B-Thinking-2507 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--enable-reasoning \
--reasoning-parser deepseek_r1 \
--gpu-memory-utilization 0.9 \
--host 0.0.0.0
SGLang 分布式部署命令:
bash
python -m sglang.launch_server \
--model-path Qwen/Qwen3-235B-A22B-Thinking-2507 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--enable-reasoning \
--radix-size 4
量化版本推荐: - Q4_K_M:25% 精度损失,适合内存受限环境 - Q2_K:12.5% 精度损失,极致内存优化
推理参数调优:
- temperature: 0.6(复杂任务降至 0.4)
- top_k: 20-50(推理任务推荐)
- presence_penalty: 0-2(根据任务复杂度调整)
- 建议分类:
inference-engineeringsglangvllmqwenthinking-modeldeployment
四、CSDN 综合技术全景:LLM/RAG/Agent/MCP/Skill 完整栈
高价值条目:2026 年核心技术全解
- 来源: CSDN 星云开发社区 ·
高级绘画师PP· "2026年AI核心概念全拆解:LLM、Agent、MCP、RAG,一篇讲透所有行业黑话" - URL:
https://xingyun3d.csdn.net/6a15b12a662f9a54cb774fa1.html - 来源 2: CSDN ·
m0_71746299· "一文读懂2026年大模型核心:LLM、RAG、Agent" - URL:
https://blog.csdn.net/m0_71746299/article/details/159047868 - 来源 3: AtomGit · "2026年必学的五大AI技术:LLM、RAG、Agent、MCP、Skill全面解析"
- URL:
https://gitcode.csdn.net/6a0086b40a2f6a37c5a8f44e.html - 可信度: ⭐⭐⭐⭐ | 工程价值: 高(技术栈全景映射,适合入门和体系梳理)
- 核心高价值内容:
Skill vs MCP vs SubAgent 区分(常被混淆): - MCP = 工具接口标准化,解决"Agent 怎么调用外部工具" - Skill = 工作流程封装,解决"Agent 怎么高效完成某类任务" - SubAgent = 隔离执行,把子任务独立到干净上下文,结果只返回摘要给主 Agent - 三者互不冲突,可协同使用
三代流程编排演进: - 第一代 LangChain:纯代码编排,极稳定但改任何步骤都要改代码、重新部署 - 第二代 Workflow:低代码拖拽,非技术人员可上手,但无法应对文件格式爆炸 - 第三代 Skill:Agent 自主选择 + 固化模板,保留灵活性同时保证可靠性
Skill 的双重价值:省时间(高频任务一键启动)+ 省钱(省 Token 日积月累)
2026 LLM 性能排行榜(来自 AtomGit 汇总):
| 模型 | 厂商 | 发布时间 | 上下文 | 特色 | 价格 ($/M tokens) |
|---|---|---|---|---|---|
| GPT-5.4 | OpenAI | 2026.03 | 1M | 原生 Computer Use | 2.50/15.00 |
| GLM-5.1 | 智谱AI | 2026.04 | 200K | 8小时长程任务 | 1.00/3.20 |
| Claude Opus 4.7 | Anthropic | 2026.02 | 200K | 高可靠性 | 15.00/75.00 |
| Gemini 3.1 Pro | 2026.01 | 1M | 科学推理 GPQA 94.3% | 待定 |
RAG 四代演进: - 第一代:固定 Token 数切块(已淘汰,一刀切句子中间) - 第二代:递归分块,按段落、句子层级递归拆分(主流) - 第三代:语义分块,根据语义相似度找自然边界 - 第四代:查询自适应分块,根据用户查询动态决定块大小
Prompt Caching 成本优化(常被忽视): - 缓存 Token 价格可能只有非缓存的 1/10 - 常见错误:把动态内容放在静态内容前面导致命不中 - 正确做法:不变指令放前面,变化对话内容放后面
- 建议分类:
llmragagentmcpskill2026-trendsarchitecturecost-optimization
五、Substack 高质量研究洞察
5.1 RAG Reimagined:推理时代 RAG 五大突破(Gradient Flow)
- 来源: Gradient Flow · Ben Lorica · "RAG Reimagined: 5 Breakthroughs You Should Know"
- URL:
https://gradientflow.substack.com/p/rag-reimagined-5-breakthroughs-you - 可信度: ⭐⭐⭐⭐⭐ | 洞察价值: 极高(研究级,与 Snowflake AI Research 合作验证)
- 核心观点:
突破一:推理模型改变 RAG 角色 - 推理时计算(inference-time compute)将 RAG 从静态流水线转变为动态自适应系统 - 模型可在生成过程中主动决定检索时机、次数和范围
突破二:长上下文的"中间丢失"问题 - "lost in the middle":随着上下文增长,深层信息召回率下降 - 百万 token 上下文并不意味着可以放弃 RAG;RAG 提供精准检索,弥补大海捞针的局限性
突破三:LanceDB v2 对 multimodal RAG 的影响 - LanceDB v2 高效处理 AI/ML 工作负载,支持向量 embedding 和多类型数据 - 点查询性能和多表管理能力直接提升 multimodal RAG 的检索速度与可扩展性
突破四:Snowflake AI Research 的专域模型 RAG 挑战 - 专域模型在模糊或不足的检索上下文中仍面临挑战 - 混合检索(关键词 + 向量 + 知识图谱)是当前最稳健方案
突破五:GraphRAG 的工业化落地路径 - 知识图谱自动构建工具持续改善,但实际落地仍需较多人工维护 - 建议从高频复杂查询场景单独切入,而非全知识库重建
- 后续行动: 建议核验 LanceDB v2 官方发布说明(blog.lancedb.com)
- 建议分类:
ragreasoning-modelsgraph-ragmultimodalsnowflakelancedb2026-trends
5.2 AI/ML Engineer 面试指南 2026(The Curious Mak)
- 来源: The Curious Mak · "The AI/ML Engineer Interview Guide for 2026 - Part 1"
- URL:
https://thecuriousmak.substack.com/p/the-aiml-engineer-interview-guide - 可信度: ⭐⭐⭐⭐ | 洞察价值: 高(区分三种工程师类型,明确各自考察重点)
- 核心观点:
三种 AI/ML 工程师类型 & 考察重点:
| 类型 | 核心技术 | 常考内容 |
|---|---|---|
| 古典 ML 工程师 | 监督学习、推荐系统、特征工程 | 偏差-方差、过拟合、类不平衡、实验设计、数据泄露 |
| LLM 应用工程师 | Prompt、RAG、evals、模型路由 | 延迟/成本权衡、生产故障模式、上下文工程 |
| 多模态工程师 | 视觉-语言模型、Document AI、音频 | 视觉定位、多模态微调、跨模态检索 |
常见误区: - 只学 RAG、agents、embeddings、prompting → 但面试仍可能考察传统 ML 基础 - 理解传统 ML 但在 tokenization、长上下文模型、多模态架构、偏好优化上薄弱
- 建议分类:
ai-industrytalent-marketinterview-guide2026-trends
5.3 Production AI/ML 系统路线图 2026(Jam with AI)
- 来源: Jam with AI · "The 2026 Roadmap: Production AI/ML Systems"
- URL:
https://jamwithai.substack.com/p/the-2026-roadmap-production-aiml - 可信度: ⭐⭐⭐⭐ | 洞察价值: 高(实战路线图,社群驱动)
- 核心观点:
- 2026 年聚焦三大方向:更深系统、生产级实现、真实公司如何构建和演进 AI/ML 基础设施
- System Thinking:构建 ML 模型 vs 生产决策之间的差距——这是未来核心能力
- 重大实战项目:结构化、端到端、生产级的 AI/ML 系统
- 通过真实社群对话驱动,而非单向内容输出
- 建议分类:
mlopsproduction-ai2026-trendscommunity
5.4 AI Skills 趋势与 LLMOps(Packt DataPro)
- 来源: Packt DataPro · "AI Skills Are Changing Faster Than Most Professionals Realize"
- URL:
https://packtdatapro1.substack.com/p/ai-skills-are-changing-faster-than - 可信度: ⭐⭐⭐ | 洞察价值: 中(与 AI Skills Conf 2026 联动)
- 核心观点:
- 2026 年 AI 工程师核心技能:RAG、LLMOps、AI evaluation、自主 agents、context engineering
- AI Skills Conf(6000+ 注册)聚焦话题:"如何用 AI 变得不可替代"、"AI Chief of Staff"、"Vibe Coding"、"Context Engineering and Agentic Memory"
- 建议分类:
ai-industryllmopsskill-development2026-trends
六、分类标签汇总
| 标签 | 条目 |
|---|---|
inference-engineering |
一、二、三 |
tensorrt-llm |
一 |
fp8 |
一 |
quantization |
一 |
pytorch |
一 |
tensorrt |
一 |
onnx |
一 |
deployment |
一、二、三 |
vllm |
二、三 |
sglang |
二、三 |
deepseek |
二 |
benchmark |
二 |
production |
二 |
qwen |
三 |
thinking-model |
三 |
llm |
四 |
rag |
四、五.1 |
agent |
四、五.1 |
mcp |
四 |
skill |
四 |
2026-trends |
四、五.1-5.4 |
architecture |
四 |
cost-optimization |
四 |
reasoning-models |
五.1 |
graph-rag |
五.1 |
multimodal |
五.1 |
snowflake |
五.1 |
lancedb |
五.1 |
ai-industry |
五.2, 5.4 |
talent-market |
五.2 |
interview-guide |
五.2 |
mlops |
五.3, 5.4 |
production-ai |
五.3 |
community |
五.3 |
llmops |
5.4 |
skill-development |
5.4 |
七、本次建议写入路径 & 后续行动
写入路径: /shared/research-kb/inbox/jay/2026-06-13-evening-rag-paradigm-fp8-sglang-substack.md
是否需要精读/审稿/主题页更新:
- ✅ 建议精读: LanceDB v2 官方博客(含 multimodal RAG 性能数据)
- ✅ 建议精读: Qwen3-235B SGLang 部署文档(完整 Dockerfile 和参数说明)
- ⚠️ 建议审稿: FP8 量化流水线(条目一)建议交叉验证 TensorRT 官方文档最新参数
- ✅ 建议主题页更新:
inference-engineering:纳入 FP8 量化、Dynamo + LMCache 补充、SGLang vs vLLM 选型rag:纳入推理模型+RAG 动态系统、LanceDB v2ai-industry:纳入三种 AI/ML 工程师类型区分
与今日早间/午后草稿的互补关系:
| 草稿 | 核心内容 | 与本文件关系 |
|---|---|---|
| 2026-06-13-inference-rag-agent-trends | vLLM/SGLang 对比、DeepSeek 分布式推理、RAG 范式、AI Agent Stack | 本文件补充量化+benchmark 实测数据 |
| 2026-06-13-afternoon-nvidia-dynamo-diffusiongemma | NVIDIA Dynamo 1.0、DiffusionGemma、HF Trending | 本文件补充推理引擎内部量化优化层 |
| 本文件(晚间) | FP8 量化、SGLang 部署实测、完整技术栈图谱、Substack 研究洞察 | 收官版:工程实测 + 体系梳理 + 研究来源 |
Jay · 2026-06-13 晚间 · 高频运营