研究知识库草稿 · Jay · 2026-06-15 夜间批次(工程二次筛选)
本次主题
夜间工程二次筛选(2026-06-15):vLLM vs SGLang 多 GPU 实测对比 + SGLang 多节点分布式部署实操命令 + tiny-vllm CUDA 教学引擎 + arXiv LLM Serving 调度算法论文
一、工程筛选结论汇总
| 条目 | 来源 | 真实性 | 复现价值 | 最终决策 |
|---|---|---|---|---|
| SGLang vs vLLM 2-GPU 实测(数据并行 vs 张量并行) | Reddit r/LocalLLaMA | ✅ 中(用户自测) | ⭐⭐⭐⭐ | 保留 — 有量化对比数据 |
| SGLang 多节点分布式部署实操(DGX Spark + Jetson Thor) | HackMD(johnnynunez) | ✅ 高(完整命令序列) | ⭐⭐⭐⭐⭐ | 保留 — 含环境变量/架构/Python 验证命令 |
| tiny-vllm: C++/CUDA 从头构建推理引擎 | GitHub(jmaczan) | ✅ 高(学习资源) | ⭐⭐⭐ | 保留 — 教育用途源码分析 |
| AIConfigurator: 框架无关推理配置搜索(arXiv 2601.06288) | arXiv | ✅ 高(学术论文) | ⭐⭐⭐⭐ | 保留 — 框架无关配置优化方法论 |
| LLM Serving 需要数学优化而非启发式(arXiv 2605.01280) | arXiv | ✅ 高(position paper) | ⭐⭐⭐⭐ | 保留 — 调度/路由/缓存策略批判性分析 |
| WAIT 算法: KV Cache 内存约束调度(arXiv 2504.11320) | arXiv | ✅ 高(理论+实验) | ⭐⭐⭐ | 保留 — 调度算法理论 |
| vLLM Semantic Router WRP 架构(arXiv 2603.21354) | arXiv | ✅ 高 | ⭐⭐⭐ | 保留 — 路由+池化架构框架 |
| Deepchecks: Prompt 更新驱动 LLM 生产事故 | Deepchecks Blog | ✅ 中高 | ⭐⭐⭐⭐ | 保留 — 生产工程实践洞察 |
| AI Engineering with Chip Huyen(Gergely Orosz Substack) | Substack | ✅ 高 | ⭐⭐⭐ | 保留 — AI Engineering 学科定义 |
| Jam with AI Substack: RAG 基础设施路线图 | Substack(jamwithai) | ✅ 高 | ⭐⭐⭐⭐ | 丢弃 — 与早间批次内容高度重叠 |
| Context Engineering in 2026(Maven 课程页) | Maven | ✅ 中 | ⭐⭐ | 丢弃 — 商业课程导流,内容同质化 |
| LangChain State of Agent Engineering | LangChain Blog | ✅ 中高 | ⭐⭐ | 丢弃 — 早间批次已收录 |
| DUCTILE: 航空航天工程分析 Agent 编排(arXiv 2603.10249) | arXiv | ✅ 高 | ⭐⭐⭐ | 丢弃 — 领域垂直,非通用工程实践 |
| Rethinking SE for Agentic AI(arXiv 2604.10599) | arXiv | ✅ 高 | ⭐⭐⭐ | 丢弃 — 早间批次已收录类似内容 |
| The Semi-Executable Stack(arXiv 2604.15468) | arXiv | ✅ 高 | ⭐⭐⭐ | 丢弃 — 早间批次已收录类似内容 |
二、保留条目详情
条目 E-N1:SGLang vs vLLM 2-GPU 性能对比实测
来源:Reddit r/LocalLLaMA(用户 nuriodaci)| https://www.reddit.com/r/LocalLLaMA/comments/1jjl45h/compared_performance_of_vllm_vs_sglang_on_2
核心数据:
- 硬件:2x NVIDIA GPU(型号未明确)
- SGLang 数据并行(--dp 2)vs vLLM 张量并行(--tensor-parallel-size 2)
- SGLang 吞吐量高约 150%(请求数 + token 生成量)
- 结论:数据并行策略在多 GPU 场景下优于张量并行
工程评价:
- ✅ 有量化数字,但仅 2-GPU 配置,泛化性待验证
- ✅ 首次明确对比两种并行策略的生产效果
- ⚠️ Reddit 用户数据,实验条件不透明
- 复现建议:在 2xA100/H100 环境复现 sglang --dp 2 vs vllm --tensor-parallel-size 2
标签:inference-engineering vllm sglang parallelism benchmark
条目 E-N2:SGLang 多节点分布式部署完整实操(DGX Spark + Jetson Thor)
来源:HackMD(johnnynunez)| https://hackmd.io/@johnnynunez/S19A_Keqbe
核心内容:
- 4 GPU 集群:2x DGX Spark(NVIDIA GB10, sm_120)+ 2x Jetson Thor(sm_110)
- 完整虚拟环境创建命令:uv venv .sglang --python 3.12
- 架构相关 CUDA 环境变量:
bash
# Jetson Thor
export TORCH_CUDA_ARCH_LIST="11.0a"
# DGX Spark
export TORCH_CUDA_ARCH_LIST="12.1a"
# 通用
export CUDA_HOME=/usr/local/cuda-13
export TRITON_PTXAS_PATH=/usr/local/cuda/bin/ptxas
- 依赖安装(包含 sgl-kernel 强制重装):
bash
uv pip install sglang
uv pip install --force-reinstall torch==2.9.1 torchvision==0.24.1 torchaudio==2.9.1 --index-url https://download.pytorch.org/whl/cu130
uv pip install --force-reinstall sgl-kernel --index-url https://docs.sglang.ai/whl/cu130/
uv pip install -U "ray[all]"
- Python 验证命令:
python
import sglang; print(f"SGLang version: {sglang.__version__}")
import torch; print(f"CUDA available: {torch.cuda.is_available()}, arch: {torch.cuda.get_device_capability()}")
工程评价: - ✅ 完整端到端部署流程,含环境变量差异(不同 GPU 架构)、依赖版本、Ray 多节点配置 - ✅ 明确标注 sm_120(GB10)和 sm_110(Thor)架构差异 - ✅ 验证命令可直接复用 - 复现价值:高 — 多节点 SGLang 部署标准参考
标签:sglang distributed-inference cuda ray deployment
条目 E-N3:tiny-vllm — 从头构建 C++/CUDA 高性能推理引擎
来源:GitHub(jmaczan/tiny-vllm)| https://github.com/jmaczan/tiny-vllm
核心内容: - 教学目的:理解 vLLM 核心原理的简化版实现 - 全操作都是函数(输入 → 处理 → 输出) - CUDA 用于 GPU 操作(矩阵乘加运算) - LLM 文本生成流程解析(token-by-token) - 使用 llama.cpp 作为 CPU baseline 对比
工程评价: - ⚠️ 非生产级代码,为教育目的 - ✅ 对理解 PagedAttention、KV Cache 管理原理有价值 - ✅ 适合作为源码阅读的前置学习材料 - 适合人群:想深入理解推理引擎架构的工程师
标签:inference-engineering cuda educational vllm-internals
条目 E-N4:AIConfigurator — 框架无关推理配置自动优化(arXiv 2601.06288)
来源:arXiv | https://arxiv.org/html/2601.06288v1
核心贡献: - 无需 GPU Profiling 的快速配置搜索(平均 30 秒内完成) - 将推理分解为可解析的基元:GEMM、Attention、通信、内存操作 - 支持 vLLM、SGLang、TGI 等主流推理框架 - 实测提升:Qwen3-32B 提升 40%,DeepSeek-V3(MoE)提升 50%
关键方法论: - 构建 kernel 级性能数据库 - 框架无关抽象层 - 从集群拓扑到引擎参数的端到端配置解析
工程评价: - ✅ 有具体数字(40%/50% 提升)和明确硬件范围(GPT-OSS, Qwen, DeepSeek, LLama, Mistral) - ✅ 解决了生产环境中推理引擎调参耗时痛点 - 后续行动:核验论文源码是否开源,判断能否集成到生产 CI
标签:inference-optimization configuration-tuning arxiv production
条目 E-N5:LLM Serving 需要数学优化而非启发式(arXiv 2605.01280)
来源:arXiv | https://arxiv.org/html/2605.01280v1
核心批判: - 当前 LLM Serving 核心算法仍沿用通用分布式计算策略: - 请求路由:Join-Shortest-Queue / Round-Robin - 调度默认:FIFO - KV Cache 淘汰:LRU - 这些策略忽略了 LLM 推理的独特结构: - 动态增长的 KV Cache 内存 - Prefill-Decode 阶段不对称 - 输出长度未知 - Continuous Batching 约束
作者主张: - 需要数学模型捕捉 LLM 推理特性 - 设计有可证明性能保证的算法,而非在某些场景有效但在其他场景不可预测的启发式方法
工程评价:
- ✅ Position Paper,批判性强,对工程选型有指导意义
- ✅ 与条目 E-N4(AIConfigurator)形成互补(实证 vs 理论)
- 适合作为:inference-systems 主题页的理论支撑
标签:inference-theory scheduling llm-serving arxiv
条目 E-N6:Deepchecks — Prompt 更新驱动 LLM 生产事故
来源:Deepchecks Blog | https://deepchecks.com/llm-production-challenges-prompt-update-incidents
核心洞察: - 生产环境中 LLM 不稳定的首要原因:频繁修改 Prompt,而非基础设施问题 - Prompt 本质上像"未测试代码提交直接推送到主分支" - 建议工程实践: 1. 将 Prompt 视为一等公民生产制品(版本化、测试、渐进式发布) 2. 自动化测试 + 观察生产行为 3. 与应用代码同等工程纪律
工程评价:
- ✅ 与早间/下午批次的 Prompt 版本化讨论呼应
- ✅ 提供具体工程纪律建议
- ✅ 真实生产问题描述,非理论推导
- 适合作为:production-practices llmops prompt-engineering 参考
标签:production prompt-engineering llmops reliability
三、丢弃条目理由
| 条目 | 丢弃理由 |
|---|---|
| Jam with AI Substack: RAG 基础设施路线图 | 与早间 CS/RAG/V/MLOps 批次(2026-06-15-afternoon-csdn...)内容高度重叠, Phase 1 RAG 系统实操内容已覆盖 |
| Context Engineering in 2026(Maven 课程) | 商业课程营销页,实质内容与 Context Engineering Guide 2026 类似,免费资源已有更好版本 |
| LangChain State of Agent Engineering | 早间 HF/Agents 批次已收录,企业产品博客,信息密度低 |
| DUCTILE 航空航天 Agent 编排 | 领域垂直(航空航天结构分析),非通用工程实践,参考价值有限 |
| Rethinking SE for Agentic AI / The Semi-Executable Stack | 早间/下午批次已收录类似多 Agent 系统工程化讨论,无新增工程细节 |
四、建议写入路径
主草稿:/shared/research-kb/inbox/jay/2026-06-15-night-engineering-filter.md(即本文)
主题精读建议:
- 精读:E-N2(SGLang 多节点实操)、E-N4(AIConfigurator)、E-N5(Position Paper)
- 源码核验:E-N4 的开源状态,E-N3(tiny-vllm)代码结构
- 主题页更新:inference-engineering 页建议补充 E-N4 配置优化方法论;distributed-systems 页建议补充 E-N2
是否需要审稿:否(本文为工程筛选报告,非原始研究)
是否需要主题页更新:建议更新 inference-engineering 主题页,补充 AIConfigurator 方法论
五、可复制摘要(用于知识库条目)
片段1:SGLang 多节点分布式部署
4 GPU 集群(2x DGX Spark GB10 + 2x Jetson Thor)SGLang 多节点部署完整流程:使用
uv venv .sglang --python 3.12创建环境,针对 Jetson Thor(TORCH_CUDA_ARCH_LIST="11.0a")和 DGX Spark(TORCH_CUDA_ARCH_LIST="12.1a")分别设置 CUDA 架构变量,强制重装torch==2.9.1和sgl-kernel,通过 Ray 多节点编排实现分布式推理。 — 来源:https://hackmd.io/@johnnynunez/S19A_Keqbe
片段2:Prompt 驱动生产事故
生产环境 LLM 故障的首要原因并非基础设施波动或 API 升级,而是 Prompt 的频繁修改。Prompt 本质上等同于"未经验证的代码提交直接推送到主分支",建议将 Prompt 视为一等公民生产制品,施加与代码同等的版本化、测试和渐进式发布工程纪律。 — 来源:Deepchecks, https://deepchecks.com/llm-production-challenges-prompt-update-incidents
片段3:AIConfigurator 框架无关配置优化
AIConfigurator 在无需 GPU Profiling 前提下,30 秒内完成推理引擎配置搜索,为 Qwen3-32B 提升 40% 性能,为 DeepSeek-V3(MoE)提升 50% 性能。方法论核心是将推理分解为 GEMM、Attention、通信、内存操作等可解析基元,构建 kernel 级性能数据库,实现跨框架(vLLM/SGLang/TGI)配置自动优化。 — 来源:arXiv 2601.06288, https://arxiv.org/html/2601.06288v1