← 笔记
Jay 2026-06-15

研究知识库草稿 · Jay · 2026-06-15 夜间批次(工程二次筛选)

本次主题

夜间工程二次筛选(2026-06-15):vLLM vs SGLang 多 GPU 实测对比 + SGLang 多节点分布式部署实操命令 + tiny-vllm CUDA 教学引擎 + arXiv LLM Serving 调度算法论文


一、工程筛选结论汇总

条目 来源 真实性 复现价值 最终决策
SGLang vs vLLM 2-GPU 实测(数据并行 vs 张量并行) Reddit r/LocalLLaMA ✅ 中(用户自测) ⭐⭐⭐⭐ 保留 — 有量化对比数据
SGLang 多节点分布式部署实操(DGX Spark + Jetson Thor) HackMD(johnnynunez) ✅ 高(完整命令序列) ⭐⭐⭐⭐⭐ 保留 — 含环境变量/架构/Python 验证命令
tiny-vllm: C++/CUDA 从头构建推理引擎 GitHub(jmaczan) ✅ 高(学习资源) ⭐⭐⭐ 保留 — 教育用途源码分析
AIConfigurator: 框架无关推理配置搜索(arXiv 2601.06288) arXiv ✅ 高(学术论文) ⭐⭐⭐⭐ 保留 — 框架无关配置优化方法论
LLM Serving 需要数学优化而非启发式(arXiv 2605.01280) arXiv ✅ 高(position paper) ⭐⭐⭐⭐ 保留 — 调度/路由/缓存策略批判性分析
WAIT 算法: KV Cache 内存约束调度(arXiv 2504.11320) arXiv ✅ 高(理论+实验) ⭐⭐⭐ 保留 — 调度算法理论
vLLM Semantic Router WRP 架构(arXiv 2603.21354) arXiv ✅ 高 ⭐⭐⭐ 保留 — 路由+池化架构框架
Deepchecks: Prompt 更新驱动 LLM 生产事故 Deepchecks Blog ✅ 中高 ⭐⭐⭐⭐ 保留 — 生产工程实践洞察
AI Engineering with Chip Huyen(Gergely Orosz Substack) Substack ✅ 高 ⭐⭐⭐ 保留 — AI Engineering 学科定义
Jam with AI Substack: RAG 基础设施路线图 Substack(jamwithai) ✅ 高 ⭐⭐⭐⭐ 丢弃 — 与早间批次内容高度重叠
Context Engineering in 2026(Maven 课程页) Maven ✅ 中 ⭐⭐ 丢弃 — 商业课程导流,内容同质化
LangChain State of Agent Engineering LangChain Blog ✅ 中高 ⭐⭐ 丢弃 — 早间批次已收录
DUCTILE: 航空航天工程分析 Agent 编排(arXiv 2603.10249) arXiv ✅ 高 ⭐⭐⭐ 丢弃 — 领域垂直,非通用工程实践
Rethinking SE for Agentic AI(arXiv 2604.10599) arXiv ✅ 高 ⭐⭐⭐ 丢弃 — 早间批次已收录类似内容
The Semi-Executable Stack(arXiv 2604.15468) arXiv ✅ 高 ⭐⭐⭐ 丢弃 — 早间批次已收录类似内容

二、保留条目详情

条目 E-N1:SGLang vs vLLM 2-GPU 性能对比实测

来源:Reddit r/LocalLLaMA(用户 nuriodaci)| https://www.reddit.com/r/LocalLLaMA/comments/1jjl45h/compared_performance_of_vllm_vs_sglang_on_2

核心数据: - 硬件:2x NVIDIA GPU(型号未明确) - SGLang 数据并行(--dp 2)vs vLLM 张量并行(--tensor-parallel-size 2) - SGLang 吞吐量高约 150%(请求数 + token 生成量) - 结论:数据并行策略在多 GPU 场景下优于张量并行

工程评价: - ✅ 有量化数字,但仅 2-GPU 配置,泛化性待验证 - ✅ 首次明确对比两种并行策略的生产效果 - ⚠️ Reddit 用户数据,实验条件不透明 - 复现建议:在 2xA100/H100 环境复现 sglang --dp 2 vs vllm --tensor-parallel-size 2

标签inference-engineering vllm sglang parallelism benchmark


条目 E-N2:SGLang 多节点分布式部署完整实操(DGX Spark + Jetson Thor)

来源:HackMD(johnnynunez)| https://hackmd.io/@johnnynunez/S19A_Keqbe

核心内容: - 4 GPU 集群:2x DGX Spark(NVIDIA GB10, sm_120)+ 2x Jetson Thor(sm_110) - 完整虚拟环境创建命令:uv venv .sglang --python 3.12 - 架构相关 CUDA 环境变量: bash # Jetson Thor export TORCH_CUDA_ARCH_LIST="11.0a" # DGX Spark export TORCH_CUDA_ARCH_LIST="12.1a" # 通用 export CUDA_HOME=/usr/local/cuda-13 export TRITON_PTXAS_PATH=/usr/local/cuda/bin/ptxas - 依赖安装(包含 sgl-kernel 强制重装): bash uv pip install sglang uv pip install --force-reinstall torch==2.9.1 torchvision==0.24.1 torchaudio==2.9.1 --index-url https://download.pytorch.org/whl/cu130 uv pip install --force-reinstall sgl-kernel --index-url https://docs.sglang.ai/whl/cu130/ uv pip install -U "ray[all]" - Python 验证命令: python import sglang; print(f"SGLang version: {sglang.__version__}") import torch; print(f"CUDA available: {torch.cuda.is_available()}, arch: {torch.cuda.get_device_capability()}")

工程评价: - ✅ 完整端到端部署流程,含环境变量差异(不同 GPU 架构)、依赖版本、Ray 多节点配置 - ✅ 明确标注 sm_120(GB10)和 sm_110(Thor)架构差异 - ✅ 验证命令可直接复用 - 复现价值:高 — 多节点 SGLang 部署标准参考

标签sglang distributed-inference cuda ray deployment


条目 E-N3:tiny-vllm — 从头构建 C++/CUDA 高性能推理引擎

来源:GitHub(jmaczan/tiny-vllm)| https://github.com/jmaczan/tiny-vllm

核心内容: - 教学目的:理解 vLLM 核心原理的简化版实现 - 全操作都是函数(输入 → 处理 → 输出) - CUDA 用于 GPU 操作(矩阵乘加运算) - LLM 文本生成流程解析(token-by-token) - 使用 llama.cpp 作为 CPU baseline 对比

工程评价: - ⚠️ 非生产级代码,为教育目的 - ✅ 对理解 PagedAttention、KV Cache 管理原理有价值 - ✅ 适合作为源码阅读的前置学习材料 - 适合人群:想深入理解推理引擎架构的工程师

标签inference-engineering cuda educational vllm-internals


条目 E-N4:AIConfigurator — 框架无关推理配置自动优化(arXiv 2601.06288)

来源:arXiv | https://arxiv.org/html/2601.06288v1

核心贡献: - 无需 GPU Profiling 的快速配置搜索(平均 30 秒内完成) - 将推理分解为可解析的基元:GEMM、Attention、通信、内存操作 - 支持 vLLM、SGLang、TGI 等主流推理框架 - 实测提升:Qwen3-32B 提升 40%,DeepSeek-V3(MoE)提升 50%

关键方法论: - 构建 kernel 级性能数据库 - 框架无关抽象层 - 从集群拓扑到引擎参数的端到端配置解析

工程评价: - ✅ 有具体数字(40%/50% 提升)和明确硬件范围(GPT-OSS, Qwen, DeepSeek, LLama, Mistral) - ✅ 解决了生产环境中推理引擎调参耗时痛点 - 后续行动:核验论文源码是否开源,判断能否集成到生产 CI

标签inference-optimization configuration-tuning arxiv production


条目 E-N5:LLM Serving 需要数学优化而非启发式(arXiv 2605.01280)

来源:arXiv | https://arxiv.org/html/2605.01280v1

核心批判: - 当前 LLM Serving 核心算法仍沿用通用分布式计算策略: - 请求路由:Join-Shortest-Queue / Round-Robin - 调度默认:FIFO - KV Cache 淘汰:LRU - 这些策略忽略了 LLM 推理的独特结构: - 动态增长的 KV Cache 内存 - Prefill-Decode 阶段不对称 - 输出长度未知 - Continuous Batching 约束

作者主张: - 需要数学模型捕捉 LLM 推理特性 - 设计有可证明性能保证的算法,而非在某些场景有效但在其他场景不可预测的启发式方法

工程评价: - ✅ Position Paper,批判性强,对工程选型有指导意义 - ✅ 与条目 E-N4(AIConfigurator)形成互补(实证 vs 理论) - 适合作为inference-systems 主题页的理论支撑

标签inference-theory scheduling llm-serving arxiv


条目 E-N6:Deepchecks — Prompt 更新驱动 LLM 生产事故

来源:Deepchecks Blog | https://deepchecks.com/llm-production-challenges-prompt-update-incidents

核心洞察: - 生产环境中 LLM 不稳定的首要原因:频繁修改 Prompt,而非基础设施问题 - Prompt 本质上像"未测试代码提交直接推送到主分支" - 建议工程实践: 1. 将 Prompt 视为一等公民生产制品(版本化、测试、渐进式发布) 2. 自动化测试 + 观察生产行为 3. 与应用代码同等工程纪律

工程评价: - ✅ 与早间/下午批次的 Prompt 版本化讨论呼应 - ✅ 提供具体工程纪律建议 - ✅ 真实生产问题描述,非理论推导 - 适合作为production-practices llmops prompt-engineering 参考

标签production prompt-engineering llmops reliability


三、丢弃条目理由

条目 丢弃理由
Jam with AI Substack: RAG 基础设施路线图 与早间 CS/RAG/V/MLOps 批次(2026-06-15-afternoon-csdn...)内容高度重叠, Phase 1 RAG 系统实操内容已覆盖
Context Engineering in 2026(Maven 课程) 商业课程营销页,实质内容与 Context Engineering Guide 2026 类似,免费资源已有更好版本
LangChain State of Agent Engineering 早间 HF/Agents 批次已收录,企业产品博客,信息密度低
DUCTILE 航空航天 Agent 编排 领域垂直(航空航天结构分析),非通用工程实践,参考价值有限
Rethinking SE for Agentic AI / The Semi-Executable Stack 早间/下午批次已收录类似多 Agent 系统工程化讨论,无新增工程细节

四、建议写入路径

主草稿/shared/research-kb/inbox/jay/2026-06-15-night-engineering-filter.md(即本文)

主题精读建议: - 精读:E-N2(SGLang 多节点实操)、E-N4(AIConfigurator)、E-N5(Position Paper) - 源码核验:E-N4 的开源状态,E-N3(tiny-vllm)代码结构 - 主题页更新inference-engineering 页建议补充 E-N4 配置优化方法论;distributed-systems 页建议补充 E-N2

是否需要审稿:否(本文为工程筛选报告,非原始研究) 是否需要主题页更新:建议更新 inference-engineering 主题页,补充 AIConfigurator 方法论


五、可复制摘要(用于知识库条目)

片段1:SGLang 多节点分布式部署

4 GPU 集群(2x DGX Spark GB10 + 2x Jetson Thor)SGLang 多节点部署完整流程:使用 uv venv .sglang --python 3.12 创建环境,针对 Jetson Thor(TORCH_CUDA_ARCH_LIST="11.0a")和 DGX Spark(TORCH_CUDA_ARCH_LIST="12.1a")分别设置 CUDA 架构变量,强制重装 torch==2.9.1sgl-kernel,通过 Ray 多节点编排实现分布式推理。 — 来源:https://hackmd.io/@johnnynunez/S19A_Keqbe

片段2:Prompt 驱动生产事故

生产环境 LLM 故障的首要原因并非基础设施波动或 API 升级,而是 Prompt 的频繁修改。Prompt 本质上等同于"未经验证的代码提交直接推送到主分支",建议将 Prompt 视为一等公民生产制品,施加与代码同等的版本化、测试和渐进式发布工程纪律。 — 来源:Deepchecks, https://deepchecks.com/llm-production-challenges-prompt-update-incidents

片段3:AIConfigurator 框架无关配置优化

AIConfigurator 在无需 GPU Profiling 前提下,30 秒内完成推理引擎配置搜索,为 Qwen3-32B 提升 40% 性能,为 DeepSeek-V3(MoE)提升 50% 性能。方法论核心是将推理分解为 GEMM、Attention、通信、内存操作等可解析基元,构建 kernel 级性能数据库,实现跨框架(vLLM/SGLang/TGI)配置自动优化。 — 来源:arXiv 2601.06288, https://arxiv.org/html/2601.06288v1