2026-06-23 午后工程筛选 · Jay · SGLang v0.5.13 / H100 三引擎 Benchmark / Harness 工程 / RAG 调试工具对比
实例:Jay
时间:2026-06-23 14:50 Asia/Shanghai
主题:SGLang v0.5.13 工程更新 / vLLM vs SGLang vs TRT-LLM H100 Benchmark 实测 / awesome-harness-engineering / FlashInfer-Bench / RAG 调试工具生产对比
标签:sglangvllmtensorrt-llmbenchmarkh100fp8spec-v2harness-engineeringrag-debuggingflashinfer-benchkernelgithubarxivsubstack
一、本次主题
本轮聚焦工程侧新内容,承接今日 13:35 简报(HF Blog / GLM-5.2 / CUDA Profiling / Agent 安全)。新增重点:
- SGLang v0.5.13(Jun 13)重大更新工程细节:Spec V2 / CUDA Graph PCG+BCG / DeepSeek V4 / HiCache
- Spheron H100 Benchmark:vLLM vs SGLang vs TRT-LLM 实测数据,含冷启动时间、并发吞吐、TTFT
- awesome-harness-engineering GitHub 知识库:AI coding agent harness 设计全景图
- FlashInfer-Bench:LLM agent 写 GPU kernel → 自动化注入生产推理引擎闭环
- RAG 调试工具生产对比:Galileo / LangSmith / Arize / Langfuse / Braintrust / TruLens / RAGAS
二、核心条目
2.1 SGLang v0.5.13 · Jun 13 重大更新工程细节 ⭐ 保留
- 来源:
https://github.com/sgl-project/sglang/releases/tag/v0.5.13 - 发布时间:2026-06-13(今日距发布 10 天)
- 工程价值:重大版本,涵盖推理引擎核心改动和新增模型支持
核心工程改动(按影响力排序):
| PR | 改动 | 工程意义 |
|---|---|---|
| #26997 | Spec V2 为默认 speculative decoding 路径 | topk>1 在 triton/FA3/MLA/aiter 后端生产就绪,EAGLE/MTP 统一到 V2 worker |
| #25945 | Unified async value passing (FutureMap) + prefill input transfer 移到 forward stream | 降低 per-step launch overhead,高并发下稳定性提升 |
| #23351 | Piecewise & Breakable CUDA Graph(PCG+BCG)扩展到 DSA / Kimi-K2.5 / DeepSeek V4 | 捕获更多模型计算图,减少 per-step kernel-launch overhead |
| #22921 | Qwen 3.5 Blackwell 加速:FlashInfer Gated DeltaNet + CuTeDSL GDN prefill kernel | Blackwell 新 GPU 代的 Attention kernel 优化 |
| #27759 | HiCache for hybrid models 默认开启 | SWA/Mamba 混合模型 hierarchical KV-cache offload 开箱即用 |
| DeepSeek V4 | Context Parallel + MTP / fused MoE / Sparse FlashMLA via flash_mla_sparse_fwd / FP4 indexer / SM120 / DeepEP waterfill load balancing / Breakable CUDA Graph | DeepSeek V4 全功能支持,含 sparse attention 生产路径 |
新增模型支持:Nemotron 3 Ultra(Day-0)、Step-3.7-Flash、Command A+、Cosmos3、FLUX.2-Klein、Ideogram 4(FP8/NVFP4)、SANA-WM、Ernie-Image
SGLang-Diffusion 新特性: - OpenAI-style realtime 视频生成(msgpack frame streaming + 独立 WebUI) - 渐进分辨率(FLUX / FLUX.2 / Qwen-Image / Wan / Z-Image) - 连续相机控制 + 超分辨率
保留理由:SGLang 是 2026 年推理引擎三强之一,v0.5.13 的 Spec V2 / PCG+BCG / FutureMap 改动直接影响生产吞吐和稳定性,必须跟进。
2.2 vLLM vs SGLang vs TensorRT-LLM · H100 80GB 实测 Benchmark(Spheron, Jun 2026)⭐ 保留
- 来源:
https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks - 测试环境:单卡 H100 SXM5 80GB,driver 590.48.01,CUDA 13.0(vLLM/SGLang)/ CUDA 13.1(TRT-LLM),模型 Llama 3.3 70B FP8
- Benchmark 方法:aiohttp async client,200 prompts(avg 512 in / 256 out),4 并发等级各 3 分钟 + 60s warm-up
实测数据(Throughput - Output Tokens/s):
| Concurrency | vLLM v0.18.0 | TensorRT-LLM v1.2.0 | SGLang v0.5.9 |
|---|---|---|---|
| 1 req | 120 tok/s | 130 tok/s | 125 tok/s |
| 10 req | 650 tok/s | 710 tok/s | 680 tok/s |
| 50 req | 1,850 tok/s | 2,100 tok/s | 1,920 tok/s |
| 100 req | 2,400 tok/s | 2,780 tok/s | 2,460 tok/s |
TTFT(p50,ms): vLLM 120ms / TRT-LLM 105ms / SGLang 112ms(@10 req)
冷启动时间:vLLM ~62s / TRT-LLM ~28min(编译开销)/ SGLang ~58s
选型建议: - vLLM:最快上生产,模型更新灵活,生态最广 - TRT-LLM:单一模型长期生产,吞吐优先,冷启动 28min 接受 - SGLang:共享前缀场景(chatbot / RAG pipeline / 多轮对话),RadixAttention 复用 KV cache
保留理由:2026 年 Q2 实测数据,含详细硬件/软件版本/方法论,可直接用于选型决策。注意 TRT-LLM v0.5.9 vs SGLang 版本差(当前已到 v0.5.13),数据趋势有效但具体数字需更新对比。
2.3 awesome-harness-engineering · GitHub ⭐ 保留
- 来源:
https://github.com/ai-boost/awesome-harness-engineering - 性质:精选知识库,CC0 公共领域
- 作者:ai-boost 团队
- 收录时间线:覆盖 2025-2026 论文和工具
核心结构(14 个分类维度):
Foundations → Design Primitives → Agent Loop → Planning & Task Decomposition
→ Context Delivery & Compaction → Tool Design → Skills & MCP
→ Permissions & Authorization → Memory & State → Task Runners & Orchestration
→ Verification & CI Integration → Observability & Tracing → Debugging & DX
→ Human-in-the-Loop → Reference Implementations → Tutorials
→ Generators & Meta-Harnesses → Demo Harnesses → Security/Sandbox → Evals
必读经典论文(Foundation 层): - OpenAI: Harness Engineering(定义 discipline) - OpenAI: Unrolling the Codex Agent Loop(expose 每个 harness 组件) - Anthropic: Building Effective Agents - Anthropic: Harness Design for Long-Running Apps - Anthropic: Writing Effective Tools for Agents
arXiv 重点论文收录:
- arXiv:2603.05344 — "Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned"(首个系统性 terminal-native coding agent 实践论文)
- 关键工程原则:eager-construction scaffolding(预构建所有组件消除首调延迟和竞态)、compound multi-model architecture(不同实例负责 execution/reasoning/critique/vision)、5 层 defense-in-depth safety、schema-filtered planning subagents
- VoltAgent/awesome-ai-agent-papers — 363+ 篇 2026 arXiv 论文,分 5 类:Multi-Agent(51) / Memory & RAG(56) / Eval & Observability(79) / Agent Tooling(95) / AI Agent Security(82)
- bradAGI/awesome-cli-coding-agents — 80+ 终端原生 coding agent + harness 编排沙箱
保留理由:2026 年 AI coding agent 工程师必读知识库,分类严谨,论文时间线新(覆盖 2025-2026),是构建 agent harness 的系统性参考。不是简单链接收集,而是有工程判断的分类体系。
2.4 FlashInfer-Bench · LLM Agent 写 GPU Kernel → 注入生产引擎(arXiv 2601.00227)⭐ 保留
- 来源:
https://arxiv.org/abs/2601.00227,ICML submission - 核心问题:LLM 能否自主生成 GPU kernel 并注入到 vLLM / SGLang 生产引擎?
- 架构:FlashInfer Trace schema(统一 kernel 定义/工作负载/实现/评估)+ FlashInfer-Bench Dataset(真实 LLM serving traces)+
flashinfer_bench.apply()机制(自动替换生产引擎最优 kernel)
三大挑战: 1. 信息传递:kernel 依赖 ragged distribution / data precision 等特性,需有效传达给 agent 2. 真实工作负载:实际 LLM 推理流量分布与 uniform/random 合成测试差异大 3. 集成闭环:生成 promising kernel 后仍有集成 gap
创新点:
- 正确性 + 性能双维度评估框架
- 运行时隔离防止 performance reward hacking
- 支持低比特和非确定性 sampling kernel 评估
- 动态 apply() 直接注入生产引擎(vLLM / SGLang)
保留理由:代表 LLM 系统 self-optimization 方向——模型生成 kernel,系统自动评估并注入生产。arXiv ICML 2026 submission,工程闭环设计严谨,是 agentic inference system 的重要前沿。
2.5 RAG 调试工具生产对比 · Galileo / LangSmith / Arize / Langfuse / Braintrust / TruLens / RAGAS(Galileo, Jun 9, 2026)⭐ 保留
- 来源:
https://galileo.ai/blog/best-rag-debugging-tools - 发布时间:2026-06-09
- 背景:生产 RAG 管道复杂度(query rewriting / reranking / tool orchestration)已超出人工调试能力,必须用专用平台
7 平台对比核心维度:
| 平台 | RAG 专属指标 | Runtime 干预 | 自托管 | 自动失败检测 | Eval 成本优化 |
|---|---|---|---|---|---|
| Galileo | ✅ Luna-2 | ✅ Native | ⚠️ Limited | ✅ Signals | ✅ 97% 降低 |
| LangSmith | ⚠️ LangChain 优化 | 专有 Eval | ✗ 云 | ⚠️ Manual | ⚠️ 标准 LLM 成本 |
| Arize AI | ✅ Luna-2 | 代理 Eval | ⚠️ Phoenix | ⚠️ Alerting | ⚠️ Proxy |
| Langfuse | ✅ 20+ 内置 | ✅ Native, OSS | ✅ On-prem/VPC | ⚠️ 回归告警 | ✅ |
| Braintrust | ✅ Built-in | ✅ | ⚠️ Phoenix | ⚠️ 回归告警 | ✅ |
| TruLens | ✅ RAG Triad | ✅ | ✗ 云 | ❌ | ❌ |
| RAGAS | ✅ OSS | ✅ via 集成 | ✅ | ✅ 内置 | ✅ |
核心洞察: - Galileo:RAG 专属性最强,Luna-2 eval 模型 + runtime 干预 + 97% eval 成本降低,适合大规模 RAG 生产 - Langfuse:开源 + 自托管首选,适合数据不能出境的合规场景 - RAGAS:纯开源评估框架,适合自建 RAG pipeline 的团队 - LangSmith:若 pipeline 用 LangChain,原生集成优势明显
工程要点:生产 RAG 必须接入调试平台,retrieval failures vs generation failures 是两个不同维度,通用监控(uptime/error rate)无法区分。chunk-level 分析是精确定位问题的前提。
保留理由:Jun 9 发布,较新;7 平台全面对比,有选择框架而非广告;生产 RAG 工程必备参考。
2.6 SGLang VLM OOM Bug · GitHub Issue #8902 ⚠️ 警示保留
- 来源:
https://github.com/sgl-project/sglang/issues/8902 - 严重性:生产环境阻塞 bug
- 问题:VLM(视觉语言模型)多模态输入导致 CUDA memory leak,触发 OOM
- 状态:issue open,暂无修复版本号
- Workaround:未在 snippet 中给出,需跳转查看
保留理由:若生产环境使用 SGLang + VLM,需关注此 bug。若暂未使用,可标记为「已知风险,待修复后跟进」。
2.7 nano-vLLM · ~1000 行学会推理引擎核心(boringbot Substack)⭐ 教育保留
- 来源:
https://boringbot.substack.com/p/nano-vllm-a-tiny-inference-engine - 性质:教育性代码解读,非生产代码
- 内容:~1,000 行 Python 重实现 vLLM 核心思想(KV caching / PagedAttention / continuous batching)
- 设计目标:可读性优先,理解>运行;最小化代码量以暴露核心机制
保留理由:学习 vLLM 内部机制的优秀资源,适合工程师理解 PagedAttention 的 block 管理逻辑和 continuous batching 的调度循环。非生产用但工程教育价值高。
2.8 CUDA Agent · RL 自动化生成 CUDA Kernel(arXiv 2602.24286)⭐ 研究保留
- 来源:
https://arxiv.org/abs/2602.24286 - 方法:Large-scale Agentic RL system for CUDA kernel generation
- 三组件:scalable data synthesis pipeline / skill-augmented CUDA dev environment(自动化验证+profiling)/ RL 训练技术
Benchmark 结果(KernelBench):
| Level | vs torch.compile | vs Claude Opus 4.5 | vs Gemini 3 Pro |
|---|---|---|---|
| L1 | 100% faster | — | — |
| L2 | 100% faster | — | — |
| L3 (最难) | 92% faster | ~40% faster | ~40% faster |
保留理由:LLM 生成 CUDA kernel 已达 SOTA,Claude Opus 4.5 和 Gemini 3 Pro 在 L3 上均被击败 40%。代表 AI-assisted kernel engineering 已进入生产可用阶段,值得跟进。
2.9 SitePoint vLLM Production Deployment Guide ⭐ 参考保留
- 来源:
https://www.sitepoint.com/vllm-production-deployment-guide-2026 - 章节结构:vLLM Architecture / Docker 部署 / K8s 部署 / OpenAI-Compatible API / 性能优化 / 监控可观测性 / 安全可靠性 / 生产就绪检查清单
- 质量判断:内容结构完整,含 Docker/K8s/HPA/OpenAI API/监控/Security sections,适合作为工程检查清单参考
保留理由:综合生产部署指南,覆盖端到端流程,与 Spheron 的 benchmark 配合使用可形成「选型→部署→调优」闭环。
2.10 Agentic Harness Engineering · 学科定义(decodingai.com)⭐ 概念保留
- 来源:
https://www.decodingai.com/p/agentic-harness-engineering - 核心定义:Agent = Model + Harness。Harness = 一切非模型本身的代码/配置/执行逻辑
- 金融助手案例:LlamaIndex + MCP + RAG pipeline → 意外构建出 specialized tools + domain guardrails + context engineering 的 harness
保留理由:Harness engineering 作为独立学科的明确定义,与 awesome-harness-engineering 知识库互补。
三、丢弃条目及理由
| 条目 | 来源 | 丢弃理由 |
|---|---|---|
| AI Agents Stack 2026(The AI Engineer Substack) | theaiengineer.substack.com | 栈图整理为主,无新工程细节,与早间简报内容高度重叠 |
| 10 Essential Books AI Engineer(javarevisited Substack) | javarevisited.substack.com | 书单推荐,非工程原始内容,二手整理 |
| ML vs AI Engineer Career(nidly Substack) | nidly.substack.com | 职业分析文章,非技术工程内容 |
| Data Science Roadmap 2026(jamwithai Substack) | jamwithai.substack.com | 入门路线图,非生产级工程内容 |
| Context Engineering vs Prompt Engineering(systemdesignone) | open.substack.com | 概念对比文章,无新工具/代码/错误/性能数据 |
| Inference Engines 2026 Comparison(yottalabs.ai) | yottalabs.ai | 内容摘要为主,无实测数据,比不上 Spheron benchmark 详细 |
| DeployBase LLM Inference Engines | deploybase.ai | 同样是 comparison article,无实测数据 |
| LLM Evaluation in 2026(Medium) | medium.com | 偏评测趋势,非工程命令/代码/生产问题 |
| SWE-bench Verified Gemini 3 Pro 91.7%(Medium snippet) | medium.com | 评测数据,与 agentic harness 工程筛选主线关联度低 |
四、分类标签汇总
| 标签 | 条目数 | 主要来源 |
|---|---|---|
sglang vllm tensorrt-llm |
2 | GitHub release, Spheron benchmark |
benchmark h100 fp8 |
1 | Spheron实测 |
spec-v2 cuda-graph flashinfer |
1 | SGLang v0.5.13 |
harness-engineering agent-loop context-engineering |
3 | awesome-harness, decodingai, arXiv |
rag-debugging observability langfuse ragas galileo |
1 | Galileo blog |
flashinfer-bench kernel llm-agent |
1 | arXiv 2601.00227 |
cuda-agent kernel-bench |
1 | arXiv 2602.24286 |
vlm oom bug |
1 | GitHub issue |
nano-vllm education |
1 | boringbot Substack |
五、建议写入路径
推荐路径:/shared/research-kb/inbox/jay/2026-06-23-1450-engineering-filter-round8-inference-engine-sglang-benchmark-harness-debug.md
是否需要精读: - ⭐⭐⭐ SGLang v0.5.13 Release Notes — 直接影响生产,DeepSeek V4 + Spec V2 + PCG/BCG 改动需跟进 - ⭐⭐⭐ Spheron H100 Benchmark — 选型必备,含详细方法论 - ⭐⭐ awesome-harness-engineering — 系统性知识库,有空通读分类表 - ⭐⭐ FlashInfer-Bench — Agentic inference system 前沿,了解 AI 生成 kernel → 注入生产的闭环 - ⭐⭐ Galileo RAG 调试工具对比 — 生产 RAG 平台选型参考 - ⭐ CUDA Agent arXiv — 研究前沿,L3 kernel generation 击败最强闭源模型 40% - ⭐ SGLang VLM OOM Bug — 若使用 VLM,关注修复版本
主题页更新建议:
- 新增 harness-engineering 标签,关联 awesome-harness-engineering 和 decodingai 文章
- 更新 sglang 主题页至 v0.5.13,含 Spec V2 和 DeepSeek V4 更新
- RAG 平台选型页面可整合 Galileo 对比表
Jay · 2026-06-23 14:50 CST · 工程筛选第 8 轮