研究知识库草稿 · Jay · 2026-06-15 夜间批次（工程二次筛选）

本次主题

夜间工程二次筛选（2026-06-15）：vLLM vs SGLang 多 GPU 实测对比 + SGLang 多节点分布式部署实操命令 + tiny-vllm CUDA 教学引擎 + arXiv LLM Serving 调度算法论文

一、工程筛选结论汇总

条目	来源	真实性	复现价值	最终决策
SGLang vs vLLM 2-GPU 实测（数据并行 vs 张量并行）	Reddit r/LocalLLaMA	✅ 中（用户自测）	⭐⭐⭐⭐	保留 — 有量化对比数据
SGLang 多节点分布式部署实操（DGX Spark + Jetson Thor）	HackMD（johnnynunez）	✅ 高（完整命令序列）	⭐⭐⭐⭐⭐	保留 — 含环境变量/架构/Python 验证命令
tiny-vllm: C++/CUDA 从头构建推理引擎	GitHub（jmaczan）	✅ 高（学习资源）	⭐⭐⭐	保留 — 教育用途源码分析
AIConfigurator: 框架无关推理配置搜索（arXiv 2601.06288）	arXiv	✅ 高（学术论文）	⭐⭐⭐⭐	保留 — 框架无关配置优化方法论
LLM Serving 需要数学优化而非启发式（arXiv 2605.01280）	arXiv	✅ 高（position paper）	⭐⭐⭐⭐	保留 — 调度/路由/缓存策略批判性分析
WAIT 算法: KV Cache 内存约束调度（arXiv 2504.11320）	arXiv	✅ 高（理论+实验）	⭐⭐⭐	保留 — 调度算法理论
vLLM Semantic Router WRP 架构（arXiv 2603.21354）	arXiv	✅ 高	⭐⭐⭐	保留 — 路由+池化架构框架
Deepchecks: Prompt 更新驱动 LLM 生产事故	Deepchecks Blog	✅ 中高	⭐⭐⭐⭐	保留 — 生产工程实践洞察
AI Engineering with Chip Huyen（Gergely Orosz Substack）	Substack	✅ 高	⭐⭐⭐	保留 — AI Engineering 学科定义
Jam with AI Substack: RAG 基础设施路线图	Substack（jamwithai）	✅ 高	⭐⭐⭐⭐	丢弃 — 与早间批次内容高度重叠
Context Engineering in 2026（Maven 课程页）	Maven	✅ 中	⭐⭐	丢弃 — 商业课程导流，内容同质化
LangChain State of Agent Engineering	LangChain Blog	✅ 中高	⭐⭐	丢弃 — 早间批次已收录
DUCTILE: 航空航天工程分析 Agent 编排（arXiv 2603.10249）	arXiv	✅ 高	⭐⭐⭐	丢弃 — 领域垂直，非通用工程实践
Rethinking SE for Agentic AI（arXiv 2604.10599）	arXiv	✅ 高	⭐⭐⭐	丢弃 — 早间批次已收录类似内容
The Semi-Executable Stack（arXiv 2604.15468）	arXiv	✅ 高	⭐⭐⭐	丢弃 — 早间批次已收录类似内容

二、保留条目详情

条目 E-N1：SGLang vs vLLM 2-GPU 性能对比实测

来源：Reddit r/LocalLLaMA（用户 nuriodaci）| https://www.reddit.com/r/LocalLLaMA/comments/1jjl45h/compared_performance_of_vllm_vs_sglang_on_2

核心数据： - 硬件：2x NVIDIA GPU（型号未明确） - SGLang 数据并行（--dp 2）vs vLLM 张量并行（--tensor-parallel-size 2） - SGLang 吞吐量高约 150%（请求数 + token 生成量） - 结论：数据并行策略在多 GPU 场景下优于张量并行

工程评价： - ✅ 有量化数字，但仅 2-GPU 配置，泛化性待验证 - ✅ 首次明确对比两种并行策略的生产效果 - ⚠️ Reddit 用户数据，实验条件不透明 - 复现建议：在 2xA100/H100 环境复现 sglang --dp 2 vs vllm --tensor-parallel-size 2

标签：inference-engineering vllm sglang parallelism benchmark

条目 E-N2：SGLang 多节点分布式部署完整实操（DGX Spark + Jetson Thor）

来源：HackMD（johnnynunez）| https://hackmd.io/@johnnynunez/S19A_Keqbe

核心内容： - 4 GPU 集群：2x DGX Spark（NVIDIA GB10, sm_120）+ 2x Jetson Thor（sm_110） - 完整虚拟环境创建命令：uv venv .sglang --python 3.12 - 架构相关 CUDA 环境变量： bash # Jetson Thor export TORCH_CUDA_ARCH_LIST="11.0a" # DGX Spark export TORCH_CUDA_ARCH_LIST="12.1a" # 通用 export CUDA_HOME=/usr/local/cuda-13 export TRITON_PTXAS_PATH=/usr/local/cuda/bin/ptxas - 依赖安装（包含 sgl-kernel 强制重装）： bash uv pip install sglang uv pip install --force-reinstall torch==2.9.1 torchvision==0.24.1 torchaudio==2.9.1 --index-url https://download.pytorch.org/whl/cu130 uv pip install --force-reinstall sgl-kernel --index-url https://docs.sglang.ai/whl/cu130/ uv pip install -U "ray[all]" - Python 验证命令： python import sglang; print(f"SGLang version: {sglang.__version__}") import torch; print(f"CUDA available: {torch.cuda.is_available()}, arch: {torch.cuda.get_device_capability()}")

工程评价： - ✅ 完整端到端部署流程，含环境变量差异（不同 GPU 架构）、依赖版本、Ray 多节点配置 - ✅ 明确标注 sm_120（GB10）和 sm_110（Thor）架构差异 - ✅ 验证命令可直接复用 - 复现价值：高 — 多节点 SGLang 部署标准参考

标签：sglang distributed-inference cuda ray deployment

条目 E-N3：tiny-vllm — 从头构建 C++/CUDA 高性能推理引擎

来源：GitHub（jmaczan/tiny-vllm）| https://github.com/jmaczan/tiny-vllm

核心内容： - 教学目的：理解 vLLM 核心原理的简化版实现 - 全操作都是函数（输入 → 处理 → 输出） - CUDA 用于 GPU 操作（矩阵乘加运算） - LLM 文本生成流程解析（token-by-token） - 使用 llama.cpp 作为 CPU baseline 对比

工程评价： - ⚠️ 非生产级代码，为教育目的 - ✅ 对理解 PagedAttention、KV Cache 管理原理有价值 - ✅ 适合作为源码阅读的前置学习材料 - 适合人群：想深入理解推理引擎架构的工程师

标签：inference-engineering cuda educational vllm-internals

条目 E-N4：AIConfigurator — 框架无关推理配置自动优化（arXiv 2601.06288）

来源：arXiv | https://arxiv.org/html/2601.06288v1

核心贡献： - 无需 GPU Profiling 的快速配置搜索（平均 30 秒内完成） - 将推理分解为可解析的基元：GEMM、Attention、通信、内存操作 - 支持 vLLM、SGLang、TGI 等主流推理框架 - 实测提升：Qwen3-32B 提升 40%，DeepSeek-V3（MoE）提升 50%

关键方法论： - 构建 kernel 级性能数据库 - 框架无关抽象层 - 从集群拓扑到引擎参数的端到端配置解析

工程评价： - ✅ 有具体数字（40%/50% 提升）和明确硬件范围（GPT-OSS, Qwen, DeepSeek, LLama, Mistral） - ✅ 解决了生产环境中推理引擎调参耗时痛点 - 后续行动：核验论文源码是否开源，判断能否集成到生产 CI

标签：inference-optimization configuration-tuning arxiv production

条目 E-N5：LLM Serving 需要数学优化而非启发式（arXiv 2605.01280）

来源：arXiv | https://arxiv.org/html/2605.01280v1

核心批判： - 当前 LLM Serving 核心算法仍沿用通用分布式计算策略： - 请求路由：Join-Shortest-Queue / Round-Robin - 调度默认：FIFO - KV Cache 淘汰：LRU - 这些策略忽略了 LLM 推理的独特结构： - 动态增长的 KV Cache 内存 - Prefill-Decode 阶段不对称 - 输出长度未知 - Continuous Batching 约束

作者主张： - 需要数学模型捕捉 LLM 推理特性 - 设计有可证明性能保证的算法，而非在某些场景有效但在其他场景不可预测的启发式方法

工程评价： - ✅ Position Paper，批判性强，对工程选型有指导意义 - ✅ 与条目 E-N4（AIConfigurator）形成互补（实证 vs 理论） - 适合作为：inference-systems 主题页的理论支撑

标签：inference-theory scheduling llm-serving arxiv

条目 E-N6：Deepchecks — Prompt 更新驱动 LLM 生产事故

来源：Deepchecks Blog | https://deepchecks.com/llm-production-challenges-prompt-update-incidents

核心洞察： - 生产环境中 LLM 不稳定的首要原因：频繁修改 Prompt，而非基础设施问题 - Prompt 本质上像"未测试代码提交直接推送到主分支" - 建议工程实践： 1. 将 Prompt 视为一等公民生产制品（版本化、测试、渐进式发布） 2. 自动化测试 + 观察生产行为 3. 与应用代码同等工程纪律

工程评价： - ✅ 与早间/下午批次的 Prompt 版本化讨论呼应 - ✅ 提供具体工程纪律建议 - ✅ 真实生产问题描述，非理论推导 - 适合作为：production-practices llmops prompt-engineering 参考

标签：production prompt-engineering llmops reliability

三、丢弃条目理由

条目	丢弃理由
Jam with AI Substack: RAG 基础设施路线图	与早间 CS/RAG/V/MLOps 批次（2026-06-15-afternoon-csdn...）内容高度重叠， Phase 1 RAG 系统实操内容已覆盖
Context Engineering in 2026（Maven 课程）	商业课程营销页，实质内容与 Context Engineering Guide 2026 类似，免费资源已有更好版本
LangChain State of Agent Engineering	早间 HF/Agents 批次已收录，企业产品博客，信息密度低
DUCTILE 航空航天 Agent 编排	领域垂直（航空航天结构分析），非通用工程实践，参考价值有限
Rethinking SE for Agentic AI / The Semi-Executable Stack	早间/下午批次已收录类似多 Agent 系统工程化讨论，无新增工程细节

四、建议写入路径

主草稿：/shared/research-kb/inbox/jay/2026-06-15-night-engineering-filter.md（即本文）

主题精读建议： - 精读：E-N2（SGLang 多节点实操）、E-N4（AIConfigurator）、E-N5（Position Paper） - 源码核验：E-N4 的开源状态，E-N3（tiny-vllm）代码结构 - 主题页更新：inference-engineering 页建议补充 E-N4 配置优化方法论；distributed-systems 页建议补充 E-N2

是否需要审稿：否（本文为工程筛选报告，非原始研究） 是否需要主题页更新：建议更新 inference-engineering 主题页，补充 AIConfigurator 方法论

五、可复制摘要（用于知识库条目）

片段1：SGLang 多节点分布式部署

4 GPU 集群（2x DGX Spark GB10 + 2x Jetson Thor）SGLang 多节点部署完整流程：使用 uv venv .sglang --python 3.12 创建环境，针对 Jetson Thor（TORCH_CUDA_ARCH_LIST="11.0a"）和 DGX Spark（TORCH_CUDA_ARCH_LIST="12.1a"）分别设置 CUDA 架构变量，强制重装 torch==2.9.1 和 sgl-kernel，通过 Ray 多节点编排实现分布式推理。 — 来源：https://hackmd.io/@johnnynunez/S19A_Keqbe

片段2：Prompt 驱动生产事故

生产环境 LLM 故障的首要原因并非基础设施波动或 API 升级，而是 Prompt 的频繁修改。Prompt 本质上等同于"未经验证的代码提交直接推送到主分支"，建议将 Prompt 视为一等公民生产制品，施加与代码同等的版本化、测试和渐进式发布工程纪律。 — 来源：Deepchecks, https://deepchecks.com/llm-production-challenges-prompt-update-incidents

片段3：AIConfigurator 框架无关配置优化

AIConfigurator 在无需 GPU Profiling 前提下，30 秒内完成推理引擎配置搜索，为 Qwen3-32B 提升 40% 性能，为 DeepSeek-V3（MoE）提升 50% 性能。方法论核心是将推理分解为 GEMM、Attention、通信、内存操作等可解析基元，构建 kernel 级性能数据库，实现跨框架（vLLM/SGLang/TGI）配置自动优化。 — 来源：arXiv 2601.06288, https://arxiv.org/html/2601.06288v1