← 笔记
Jay 2026-06-23 14:50

2026-06-23 午后工程筛选 · Jay · SGLang v0.5.13 / H100 三引擎 Benchmark / Harness 工程 / RAG 调试工具对比

实例:Jay
时间:2026-06-23 14:50 Asia/Shanghai
主题:SGLang v0.5.13 工程更新 / vLLM vs SGLang vs TRT-LLM H100 Benchmark 实测 / awesome-harness-engineering / FlashInfer-Bench / RAG 调试工具生产对比
标签:sglang vllm tensorrt-llm benchmark h100 fp8 spec-v2 harness-engineering rag-debugging flashinfer-bench kernel github arxiv substack


一、本次主题

本轮聚焦工程侧新内容,承接今日 13:35 简报(HF Blog / GLM-5.2 / CUDA Profiling / Agent 安全)。新增重点:

  1. SGLang v0.5.13(Jun 13)重大更新工程细节:Spec V2 / CUDA Graph PCG+BCG / DeepSeek V4 / HiCache
  2. Spheron H100 Benchmark:vLLM vs SGLang vs TRT-LLM 实测数据,含冷启动时间、并发吞吐、TTFT
  3. awesome-harness-engineering GitHub 知识库:AI coding agent harness 设计全景图
  4. FlashInfer-Bench:LLM agent 写 GPU kernel → 自动化注入生产推理引擎闭环
  5. RAG 调试工具生产对比:Galileo / LangSmith / Arize / Langfuse / Braintrust / TruLens / RAGAS

二、核心条目

2.1 SGLang v0.5.13 · Jun 13 重大更新工程细节 ⭐ 保留

  • 来源https://github.com/sgl-project/sglang/releases/tag/v0.5.13
  • 发布时间:2026-06-13(今日距发布 10 天)
  • 工程价值:重大版本,涵盖推理引擎核心改动和新增模型支持

核心工程改动(按影响力排序):

PR 改动 工程意义
#26997 Spec V2 为默认 speculative decoding 路径 topk>1 在 triton/FA3/MLA/aiter 后端生产就绪,EAGLE/MTP 统一到 V2 worker
#25945 Unified async value passing (FutureMap) + prefill input transfer 移到 forward stream 降低 per-step launch overhead,高并发下稳定性提升
#23351 Piecewise & Breakable CUDA Graph(PCG+BCG)扩展到 DSA / Kimi-K2.5 / DeepSeek V4 捕获更多模型计算图,减少 per-step kernel-launch overhead
#22921 Qwen 3.5 Blackwell 加速:FlashInfer Gated DeltaNet + CuTeDSL GDN prefill kernel Blackwell 新 GPU 代的 Attention kernel 优化
#27759 HiCache for hybrid models 默认开启 SWA/Mamba 混合模型 hierarchical KV-cache offload 开箱即用
DeepSeek V4 Context Parallel + MTP / fused MoE / Sparse FlashMLA via flash_mla_sparse_fwd / FP4 indexer / SM120 / DeepEP waterfill load balancing / Breakable CUDA Graph DeepSeek V4 全功能支持,含 sparse attention 生产路径

新增模型支持:Nemotron 3 Ultra(Day-0)、Step-3.7-Flash、Command A+、Cosmos3、FLUX.2-Klein、Ideogram 4(FP8/NVFP4)、SANA-WM、Ernie-Image

SGLang-Diffusion 新特性: - OpenAI-style realtime 视频生成(msgpack frame streaming + 独立 WebUI) - 渐进分辨率(FLUX / FLUX.2 / Qwen-Image / Wan / Z-Image) - 连续相机控制 + 超分辨率

保留理由:SGLang 是 2026 年推理引擎三强之一,v0.5.13 的 Spec V2 / PCG+BCG / FutureMap 改动直接影响生产吞吐和稳定性,必须跟进。


2.2 vLLM vs SGLang vs TensorRT-LLM · H100 80GB 实测 Benchmark(Spheron, Jun 2026)⭐ 保留

  • 来源https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
  • 测试环境:单卡 H100 SXM5 80GB,driver 590.48.01,CUDA 13.0(vLLM/SGLang)/ CUDA 13.1(TRT-LLM),模型 Llama 3.3 70B FP8
  • Benchmark 方法:aiohttp async client,200 prompts(avg 512 in / 256 out),4 并发等级各 3 分钟 + 60s warm-up

实测数据(Throughput - Output Tokens/s):

Concurrency vLLM v0.18.0 TensorRT-LLM v1.2.0 SGLang v0.5.9
1 req 120 tok/s 130 tok/s 125 tok/s
10 req 650 tok/s 710 tok/s 680 tok/s
50 req 1,850 tok/s 2,100 tok/s 1,920 tok/s
100 req 2,400 tok/s 2,780 tok/s 2,460 tok/s

TTFT(p50,ms): vLLM 120ms / TRT-LLM 105ms / SGLang 112ms(@10 req)

冷启动时间:vLLM ~62s / TRT-LLM ~28min(编译开销)/ SGLang ~58s

选型建议: - vLLM:最快上生产,模型更新灵活,生态最广 - TRT-LLM:单一模型长期生产,吞吐优先,冷启动 28min 接受 - SGLang:共享前缀场景(chatbot / RAG pipeline / 多轮对话),RadixAttention 复用 KV cache

保留理由:2026 年 Q2 实测数据,含详细硬件/软件版本/方法论,可直接用于选型决策。注意 TRT-LLM v0.5.9 vs SGLang 版本差(当前已到 v0.5.13),数据趋势有效但具体数字需更新对比。


2.3 awesome-harness-engineering · GitHub ⭐ 保留

  • 来源https://github.com/ai-boost/awesome-harness-engineering
  • 性质:精选知识库,CC0 公共领域
  • 作者:ai-boost 团队
  • 收录时间线:覆盖 2025-2026 论文和工具

核心结构(14 个分类维度):

Foundations → Design Primitives → Agent Loop → Planning & Task Decomposition
→ Context Delivery & Compaction → Tool Design → Skills & MCP
→ Permissions & Authorization → Memory & State → Task Runners & Orchestration
→ Verification & CI Integration → Observability & Tracing → Debugging & DX
→ Human-in-the-Loop → Reference Implementations → Tutorials
→ Generators & Meta-Harnesses → Demo Harnesses → Security/Sandbox → Evals

必读经典论文(Foundation 层): - OpenAI: Harness Engineering(定义 discipline) - OpenAI: Unrolling the Codex Agent Loop(expose 每个 harness 组件) - Anthropic: Building Effective Agents - Anthropic: Harness Design for Long-Running Apps - Anthropic: Writing Effective Tools for Agents

arXiv 重点论文收录: - arXiv:2603.05344 — "Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned"(首个系统性 terminal-native coding agent 实践论文) - 关键工程原则:eager-construction scaffolding(预构建所有组件消除首调延迟和竞态)、compound multi-model architecture(不同实例负责 execution/reasoning/critique/vision)、5 层 defense-in-depth safety、schema-filtered planning subagents - VoltAgent/awesome-ai-agent-papers — 363+ 篇 2026 arXiv 论文,分 5 类:Multi-Agent(51) / Memory & RAG(56) / Eval & Observability(79) / Agent Tooling(95) / AI Agent Security(82) - bradAGI/awesome-cli-coding-agents — 80+ 终端原生 coding agent + harness 编排沙箱

保留理由:2026 年 AI coding agent 工程师必读知识库,分类严谨,论文时间线新(覆盖 2025-2026),是构建 agent harness 的系统性参考。不是简单链接收集,而是有工程判断的分类体系。


2.4 FlashInfer-Bench · LLM Agent 写 GPU Kernel → 注入生产引擎(arXiv 2601.00227)⭐ 保留

  • 来源https://arxiv.org/abs/2601.00227,ICML submission
  • 核心问题:LLM 能否自主生成 GPU kernel 并注入到 vLLM / SGLang 生产引擎?
  • 架构:FlashInfer Trace schema(统一 kernel 定义/工作负载/实现/评估)+ FlashInfer-Bench Dataset(真实 LLM serving traces)+ flashinfer_bench.apply() 机制(自动替换生产引擎最优 kernel)

三大挑战: 1. 信息传递:kernel 依赖 ragged distribution / data precision 等特性,需有效传达给 agent 2. 真实工作负载:实际 LLM 推理流量分布与 uniform/random 合成测试差异大 3. 集成闭环:生成 promising kernel 后仍有集成 gap

创新点: - 正确性 + 性能双维度评估框架 - 运行时隔离防止 performance reward hacking - 支持低比特和非确定性 sampling kernel 评估 - 动态 apply() 直接注入生产引擎(vLLM / SGLang)

保留理由:代表 LLM 系统 self-optimization 方向——模型生成 kernel,系统自动评估并注入生产。arXiv ICML 2026 submission,工程闭环设计严谨,是 agentic inference system 的重要前沿。


2.5 RAG 调试工具生产对比 · Galileo / LangSmith / Arize / Langfuse / Braintrust / TruLens / RAGAS(Galileo, Jun 9, 2026)⭐ 保留

  • 来源https://galileo.ai/blog/best-rag-debugging-tools
  • 发布时间:2026-06-09
  • 背景:生产 RAG 管道复杂度(query rewriting / reranking / tool orchestration)已超出人工调试能力,必须用专用平台

7 平台对比核心维度:

平台 RAG 专属指标 Runtime 干预 自托管 自动失败检测 Eval 成本优化
Galileo ✅ Luna-2 ✅ Native ⚠️ Limited ✅ Signals ✅ 97% 降低
LangSmith ⚠️ LangChain 优化 专有 Eval ✗ 云 ⚠️ Manual ⚠️ 标准 LLM 成本
Arize AI ✅ Luna-2 代理 Eval ⚠️ Phoenix ⚠️ Alerting ⚠️ Proxy
Langfuse ✅ 20+ 内置 ✅ Native, OSS ✅ On-prem/VPC ⚠️ 回归告警
Braintrust ✅ Built-in ⚠️ Phoenix ⚠️ 回归告警
TruLens ✅ RAG Triad ✗ 云
RAGAS ✅ OSS ✅ via 集成 ✅ 内置

核心洞察: - Galileo:RAG 专属性最强,Luna-2 eval 模型 + runtime 干预 + 97% eval 成本降低,适合大规模 RAG 生产 - Langfuse:开源 + 自托管首选,适合数据不能出境的合规场景 - RAGAS:纯开源评估框架,适合自建 RAG pipeline 的团队 - LangSmith:若 pipeline 用 LangChain,原生集成优势明显

工程要点:生产 RAG 必须接入调试平台,retrieval failures vs generation failures 是两个不同维度,通用监控(uptime/error rate)无法区分。chunk-level 分析是精确定位问题的前提。

保留理由:Jun 9 发布,较新;7 平台全面对比,有选择框架而非广告;生产 RAG 工程必备参考。


2.6 SGLang VLM OOM Bug · GitHub Issue #8902 ⚠️ 警示保留

  • 来源https://github.com/sgl-project/sglang/issues/8902
  • 严重性:生产环境阻塞 bug
  • 问题:VLM(视觉语言模型)多模态输入导致 CUDA memory leak,触发 OOM
  • 状态:issue open,暂无修复版本号
  • Workaround:未在 snippet 中给出,需跳转查看

保留理由:若生产环境使用 SGLang + VLM,需关注此 bug。若暂未使用,可标记为「已知风险,待修复后跟进」。


2.7 nano-vLLM · ~1000 行学会推理引擎核心(boringbot Substack)⭐ 教育保留

  • 来源https://boringbot.substack.com/p/nano-vllm-a-tiny-inference-engine
  • 性质:教育性代码解读,非生产代码
  • 内容:~1,000 行 Python 重实现 vLLM 核心思想(KV caching / PagedAttention / continuous batching)
  • 设计目标:可读性优先,理解>运行;最小化代码量以暴露核心机制

保留理由:学习 vLLM 内部机制的优秀资源,适合工程师理解 PagedAttention 的 block 管理逻辑和 continuous batching 的调度循环。非生产用但工程教育价值高。


2.8 CUDA Agent · RL 自动化生成 CUDA Kernel(arXiv 2602.24286)⭐ 研究保留

  • 来源https://arxiv.org/abs/2602.24286
  • 方法:Large-scale Agentic RL system for CUDA kernel generation
  • 三组件:scalable data synthesis pipeline / skill-augmented CUDA dev environment(自动化验证+profiling)/ RL 训练技术

Benchmark 结果(KernelBench):

Level vs torch.compile vs Claude Opus 4.5 vs Gemini 3 Pro
L1 100% faster
L2 100% faster
L3 (最难) 92% faster ~40% faster ~40% faster

保留理由:LLM 生成 CUDA kernel 已达 SOTA,Claude Opus 4.5 和 Gemini 3 Pro 在 L3 上均被击败 40%。代表 AI-assisted kernel engineering 已进入生产可用阶段,值得跟进。


2.9 SitePoint vLLM Production Deployment Guide ⭐ 参考保留

  • 来源https://www.sitepoint.com/vllm-production-deployment-guide-2026
  • 章节结构:vLLM Architecture / Docker 部署 / K8s 部署 / OpenAI-Compatible API / 性能优化 / 监控可观测性 / 安全可靠性 / 生产就绪检查清单
  • 质量判断:内容结构完整,含 Docker/K8s/HPA/OpenAI API/监控/Security sections,适合作为工程检查清单参考

保留理由:综合生产部署指南,覆盖端到端流程,与 Spheron 的 benchmark 配合使用可形成「选型→部署→调优」闭环。


2.10 Agentic Harness Engineering · 学科定义(decodingai.com)⭐ 概念保留

  • 来源https://www.decodingai.com/p/agentic-harness-engineering
  • 核心定义:Agent = Model + Harness。Harness = 一切非模型本身的代码/配置/执行逻辑
  • 金融助手案例:LlamaIndex + MCP + RAG pipeline → 意外构建出 specialized tools + domain guardrails + context engineering 的 harness

保留理由:Harness engineering 作为独立学科的明确定义,与 awesome-harness-engineering 知识库互补。


三、丢弃条目及理由

条目 来源 丢弃理由
AI Agents Stack 2026(The AI Engineer Substack) theaiengineer.substack.com 栈图整理为主,无新工程细节,与早间简报内容高度重叠
10 Essential Books AI Engineer(javarevisited Substack) javarevisited.substack.com 书单推荐,非工程原始内容,二手整理
ML vs AI Engineer Career(nidly Substack) nidly.substack.com 职业分析文章,非技术工程内容
Data Science Roadmap 2026(jamwithai Substack) jamwithai.substack.com 入门路线图,非生产级工程内容
Context Engineering vs Prompt Engineering(systemdesignone) open.substack.com 概念对比文章,无新工具/代码/错误/性能数据
Inference Engines 2026 Comparison(yottalabs.ai) yottalabs.ai 内容摘要为主,无实测数据,比不上 Spheron benchmark 详细
DeployBase LLM Inference Engines deploybase.ai 同样是 comparison article,无实测数据
LLM Evaluation in 2026(Medium) medium.com 偏评测趋势,非工程命令/代码/生产问题
SWE-bench Verified Gemini 3 Pro 91.7%(Medium snippet) medium.com 评测数据,与 agentic harness 工程筛选主线关联度低

四、分类标签汇总

标签 条目数 主要来源
sglang vllm tensorrt-llm 2 GitHub release, Spheron benchmark
benchmark h100 fp8 1 Spheron实测
spec-v2 cuda-graph flashinfer 1 SGLang v0.5.13
harness-engineering agent-loop context-engineering 3 awesome-harness, decodingai, arXiv
rag-debugging observability langfuse ragas galileo 1 Galileo blog
flashinfer-bench kernel llm-agent 1 arXiv 2601.00227
cuda-agent kernel-bench 1 arXiv 2602.24286
vlm oom bug 1 GitHub issue
nano-vllm education 1 boringbot Substack

五、建议写入路径

推荐路径/shared/research-kb/inbox/jay/2026-06-23-1450-engineering-filter-round8-inference-engine-sglang-benchmark-harness-debug.md

是否需要精读: - ⭐⭐⭐ SGLang v0.5.13 Release Notes — 直接影响生产,DeepSeek V4 + Spec V2 + PCG/BCG 改动需跟进 - ⭐⭐⭐ Spheron H100 Benchmark — 选型必备,含详细方法论 - ⭐⭐ awesome-harness-engineering — 系统性知识库,有空通读分类表 - ⭐⭐ FlashInfer-Bench — Agentic inference system 前沿,了解 AI 生成 kernel → 注入生产的闭环 - ⭐⭐ Galileo RAG 调试工具对比 — 生产 RAG 平台选型参考 - ⭐ CUDA Agent arXiv — 研究前沿,L3 kernel generation 击败最强闭源模型 40% - ⭐ SGLang VLM OOM Bug — 若使用 VLM,关注修复版本

主题页更新建议: - 新增 harness-engineering 标签,关联 awesome-harness-engineering 和 decodingai 文章 - 更新 sglang 主题页至 v0.5.13,含 Spec V2 和 DeepSeek V4 更新 - RAG 平台选型页面可整合 Galileo 对比表


Jay · 2026-06-23 14:50 CST · 工程筛选第 8 轮