← 笔记
Jay 2026-06-22 14:50

📋 工程筛选草稿 · Jay · 2026-06-22 下午 14:50

主题: LLM 推理 · 生产可观测性 · Prefix Cache 路由 · Agent 工具执行并行化 · SGLang/vLLM 对比 检索范围: arXiv、GitHub Issues、TrueFoundry Blog、阿里云文档、CSDN DeepSeek 技术社区、ByteByteGo Substack 本次筛选原则: 真实环境、命令、错误、源码、性能数据、可复现步骤


🔴 丢弃条目(含理由)

条目 丢弃理由
ByteByteGo "A Guide to AI Inference Engineering" (Substack) prefill/decode 基本概念属经典内容,无新工程数据;Jay 今日下午推理报告已覆盖同主题
Simon Willison "LLM Predictions 2026" (Substack) 预测性文章,非工程实践;无命令/性能数据
alexbeyondata "1000+ Job Descriptions AI Engineer 2026" (Substack) 职业市场分析,无技术工程内容
akvanewsletter "LLMOps High Paying 2026" (Substack) 通用教程路线图,无源码/命令/错误案例
paoloap "How I'd Learn AI Engineering 2026" (Substack) 学习路径建议,非生产工程内容

🟡 待定条目(需进一步核验)

条目 待定原因 后续行动
CSDN lemon "vLLM 性能优化实战——从 benchmark_serving 到生产环境调优" 521 错误无法访问;需重试或找镜像 观察列表
adlrocha Substack (Beyond The Code) 首页无法提取近期文章列表;需直接访问具体文章 URL 确认是否有近期工程帖再收录

✅ 保留条目(高工程价值)

1. arXiv:2603.18897v3 — PASTE:Agent 工具执行与 LLM 生成并行化 ⭐⭐⭐⭐⭐

链接: https://arxiv.org/abs/2603.18897 标题: Parallelizing Tool Execution and LLM Generation for Low-Latency Agent Serving 来源: arXiv (cs.DC),2026-06-16 v3(最新) 核心工程价值: - 问题: Agent 执行循环中 LLM 生成与工具调用串行化,工具延迟暴露在关键路径上;测量发现工具执行占 E2E 延迟的 45%~57% - 方案: PASTE 系统预测未来工具调用,在 LLM 仍在生成时并行执行工具(speculative tool execution) - 具体数据: - 平均任务完成时间降低 43.5% - 观测到的工具延迟降低 1.8× - 在深度研究、编程、科学 Agent 工作负载上验证 - 工程意义: 对生产 Agent 部署(LangChain/LangGraph 流水线、代码助手、研究助手)直接有用 - 可信度: 高(arXiv 2026-03 提交,2026-06-16 最新 v3,v2→v3 有更新) - 源码: arXiv 页面通常附带 GitHub 链接,需进一步查找

保留理由: 近期重要 Agent 系统工程论文,有具体性能数据,适合纳入"Agent 生产工程"主题页。


2. arXiv:2601.20755 — ProfInfer:eBPF 驱动的 LLM 推理细粒度 Profiler ⭐⭐⭐⭐

链接: https://arxiv.org/abs/2601.20755 标题: ProfInfer: An eBPF-based Fine-Grained LLM Inference Profiler 来源: arXiv (cs.SE),已被 MLSys 2026 接收 核心工程价值: - 问题: 现有 LLM 推理引擎(llama.cpp 等)缺少算子级可见性,开发者无法诊断瓶颈(memory-bound vs compute-bound) - 方案: 基于 eBPF 的非侵入式 profiling 框架,动态 attach probe 到运行时函数,无需修改或重新编译源码 - 具体数据: - 运行时开销 <4% - 高 profiling 保真度 - 支持 dense inference、MoE routing、operator offloading 等场景的可视化 - 工程意义: 对 llama.cpp 生产调优、推理性能诊断有直接工具价值;适合纳入"推理工程工具链"主题页 - 可信度: 高(被 MLSys 2026 接收,有正式评审)

保留理由: MLSys 2026 论文,eBPF + LLM profiling 结合点新颖,<4% 开销数据具有生产可用性。


3. TrueFoundry — KV Cache 路由:为何标准 Load Balancer 破坏 Prefix Caching ⭐⭐⭐⭐

链接: https://www.truefoundry.com/blog/kv-cache-routing-why-standard-load-balancers-break-prefix-caching-and-how-to-fix-it 来源: TrueFoundry Blog 核心工程价值: - 问题: Round-robin 路由使 vLLM/SGLang 的 prefix caching 在多副本部署中失效(请求打到不同 GPU,KV cache 无法复用) - 方案: 三层 prefix-aware routing:Session Affinity → Prefix-Hash Routing → 智能缓存感知调度 - 具体数据(生产基准): - llm-d 项目(Red Hat K8s 分布式推理框架):8 pods / 16 H100,prefix-cache-aware routing vs round-robin,TTFT 提升 57×,吞吐量提升 - Llama 3.1 70B,4× AMD MI300X:输出 tokens/sec 提升 ,TTFT 降低 - DigitalOcean inference gateway:cache-aware vs random routing,吞吐量提升 108% - Prefix caching 三大场景: - RAG 管道(文档 chunk 跨查询重叠) - 多轮对话(历史消息的 KV cache) - Few-shot prompting(固定示例块复用) - vLLM vs SGLang 实现差异: - vLLM:hash-based block matching - SGLang:RadixAttention(radix tree),多轮工作负载下 reported 最高 吞吐提升 - 工程意义: 对生产推理集群多副本部署有直接指导价值,避免因路由策略浪费 prefix cache 收益 - 可信度: 高(包含具体硬件配置、项目引用、基准数据)

保留理由: 生产级工程问题 + 具体数字 + 三层解决方案;适合纳入"推理系统工程 / KV Cache 管理"主题页。


4. CSDN DeepSeek — vLLM vs SGLang 生产选型:200+ 节点观测性对比 ⭐⭐⭐⭐⭐

链接: https://deepseek.csdn.net/6a1a4a4c662f9a54cb7859a6.html 来源: DeepSeek 技术社区(CSDN 域名) 核心工程价值: - 规模: 200+ 节点大规模压力测试,基于 DeepSeek-V4 部署 - 观测性三层体系: 1. Trace 链路: vLLM 原生 OpenTelemetry 但缺失 KV cache 动态分配监控;SGLang 自动标记 speculative decoding 各阶段(draft/verify/commit),支持树状 span 2. 日志系统: vLLM 非结构化文本 + worker 崩溃丢最后 50 条日志;SGLang 内置 RequestID 全链路透传 + 全量性能日志收集 3. 延迟分解: vLLM 上下文切换开销占 P99 延迟 18%;SGLang 显存碎片整理每小时 2-3 次 300ms+ 尖刺 - 具体 bug 案例(SGLang 内存泄漏): - 现象:容器每 6 小时重启,RSS 持续增长,无明显 GC 活动 - 解决:--enable-memory-profiler + 限制 Python 堆大小 + 修复 tensor 生命周期管理 - 实测配置参数: - vLLM:gpu_memory_utilization=0.9--enable_numa_aware--log-format json - SGLang:--max-parallel-loading 4、CPU 绑核参数、--enable-memory-profiler - MTTR 改进: 观测方案实施后,DeepSeek-V4 平均故障修复时间从 47 分钟降低到 12 分钟 - 工程意义: 真实大规模生产环境数据 + 可落地配置 + 故障案例;适合纳入"SGLang vs vLLM 工程选型"主题页 - 可信度: 高(200+ 节点规模,量化 MTTR 改进,配置参数具体)

保留理由: 高质量生产工程内容,包含真实故障案例、具体配置命令、MTTR 量化收益。CSDN 平台但内容质量达标(量化数据 + 真实场景 + 可操作配置)。


5. 阿里云函数计算 — SGLang vs vLLM 部署 Qwen 性能评测 ⭐⭐⭐

链接: https://help.aliyun.com/zh/cap/user-guide/performance-comparison-of-deploying-qwen-models-using-sglang-and-vllm 来源: 阿里云官方文档 核心工程价值: - 测试环境: 阿里云函数计算 Function AI,GPU 型号 Ada 系列 - 框架版本: SGLang v0.4.6.post2-cu124,vLLM v0.8.5 - 测试工具: 魔搭开源 evalscope - 关键性能数据:

场景 指标 SGLang vs vLLM
Qwen2.5-1.5B 单卡 TTFT/TPOT SGLang 优 20%~50%
Qwen2.5-1.5B 单卡 Throughput SGLang 优 20%~40%
Qwen2.5-1.5B 双卡 Throughput 提升 SGLang +25% vs vLLM +15%
Qwen-QWQ-32B-AWQ 双卡 TTFT 提升 SGLang +50% vs vLLM +25%
Qwen-QWQ-32B 双卡 Throughput SGLang 优 10%~15%
  • OOM 错误案例: Qwen-QWQ-32B 单卡因权重超过 Ada 系列单卡显存上限,出现 CUDA out of memory 错误
  • 并发建议: Qwen-QWQ-32B-AWQ/32B 建议最大并发数 ≤5
  • 启动耗时: SGLang 比 vLLM 快约 30%(两者均在分钟级别)
  • 工程意义: 提供了具体硬件环境下的 SGLang vs vLLM 性能对比数字;适合作为选型参考
  • 可信度: 中(阿里云官方文档,具体版本号/命令,但为官方对比测试非第三方独立测试)

保留理由: 阿里云官方 benchmark 数据,版本号具体,OOM 错误案例有工程价值。降级为参考级(因非独立第三方)。


6. GitHub Issue #9619 — SGLang 与 vLLM LoRA Qwen3 推理结果 20% 不一致 ⭐⭐⭐

链接: https://github.com/sgl-project/sglang/issues/9619 来源: SGLang 官方 GitHub Issues 核心工程价值: - 问题: 使用 LoRA 微调的 Qwen3-32B,在 vLLM 和 SGLang 上推理同一批 2000 个 prompt,约 20% 结果不一致 - 具体启动命令(vLLM): python3 -m vllm.entrypoints.openai.api_server \ --model /workspace/Qwen3/model/Qwen3-32B-0825 \ --gpu-memory-utilization=0.95 -tp 2 \ --enable-auto-tool-choice --tool-call-parser hermes \ --enable-reasoning --reasoning-parser qwen3 \ --enable-lora --lora-modules qwen3-32b-level1=/workspace/Qwen3/model/Qwen3-32B-0825-lora/ - 具体启动命令(SGLang): python3 -m sglang.launch_server \ --model /workspace/Qwen3/model/Qwen3-32B-0825 \ --served-model-name qwen3-32b-level1 \ --mem-fraction-static=0.95 --tp 2 \ --chunked-prefill-size 4096 --trust-remote-code \ --disable-radix-cache \ --lora-paths vision=/workspace/Qwen3/model/Qwen3-32B-0825-lora/ - 注意: SGLang 端同时配置了 --disable-radix-cache,会导致 prefix cache 完全失效(影响性能但不影响结果一致性) - 任务类型: 分类任务,2000 条不同 prompt - 工程意义: 揭示了 vLLM/SGLang 对 LoRA + reasoning 模型支持的行为差异,是真实生产中可能遇到的精度一致性问题 - 可信度: 高(GitHub 公开 issue,有具体命令/复现步骤) - 后续行动: 需追踪 issue 后续是否被确认为 bug 或已知限制

保留理由: 真实 bug 报告,有具体命令和复现步骤;20% 不一致率在生产中是严重问题。适合纳入"SGLang/vLLM 生产问题汇总"主题页。


📊 分类标签

LLM推理 vLLM SGLang 生产可观测性 PrefixCache Agent工程 eBPF MLSys2026 算子优化 LoRA Benchmark KVCache 故障案例 多卡部署


📁 建议写入路径

本次草稿路径: /shared/research-kb/inbox/jay/2026-06-22-1450-engineering-filter-round6-production-observability-prefixcache.md

后续主题页更新建议: - topic-llm-inference-systems.md — PASTE、ProfInfer、TrueFoundry prefix cache 路由 - topic-sglang-vllm-production.md — CSDN DeepSeek 对比、阿里云 benchmark、GitHub issue #9619 - topic-kv-cache-management.md — TrueFoundry 三层路由方案、具体性能数据 - topic-agent-production-engineering.md — PASTE speculative tool execution


🔍 本次未写入原因说明

无(本次已产出完整草稿)。如需精读或审稿请告知。