📋 工程筛选草稿 · Jay · 2026-06-22 下午 14:50

主题： LLM 推理 · 生产可观测性 · Prefix Cache 路由 · Agent 工具执行并行化 · SGLang/vLLM 对比 检索范围： arXiv、GitHub Issues、TrueFoundry Blog、阿里云文档、CSDN DeepSeek 技术社区、ByteByteGo Substack 本次筛选原则： 真实环境、命令、错误、源码、性能数据、可复现步骤

🔴 丢弃条目（含理由）

条目	丢弃理由
ByteByteGo "A Guide to AI Inference Engineering" (Substack)	prefill/decode 基本概念属经典内容，无新工程数据；Jay 今日下午推理报告已覆盖同主题
Simon Willison "LLM Predictions 2026" (Substack)	预测性文章，非工程实践；无命令/性能数据
alexbeyondata "1000+ Job Descriptions AI Engineer 2026" (Substack)	职业市场分析，无技术工程内容
akvanewsletter "LLMOps High Paying 2026" (Substack)	通用教程路线图，无源码/命令/错误案例
paoloap "How I'd Learn AI Engineering 2026" (Substack)	学习路径建议，非生产工程内容

🟡 待定条目（需进一步核验）

条目	待定原因	后续行动
CSDN lemon "vLLM 性能优化实战——从 benchmark_serving 到生产环境调优"	521 错误无法访问；需重试或找镜像	观察列表
adlrocha Substack (Beyond The Code)	首页无法提取近期文章列表；需直接访问具体文章 URL	确认是否有近期工程帖再收录

✅ 保留条目（高工程价值）

1. arXiv:2603.18897v3 — PASTE：Agent 工具执行与 LLM 生成并行化 ⭐⭐⭐⭐⭐

链接： https://arxiv.org/abs/2603.18897 标题： Parallelizing Tool Execution and LLM Generation for Low-Latency Agent Serving 来源： arXiv (cs.DC)，2026-06-16 v3（最新） 核心工程价值： - 问题： Agent 执行循环中 LLM 生成与工具调用串行化，工具延迟暴露在关键路径上；测量发现工具执行占 E2E 延迟的 45%~57% - 方案： PASTE 系统预测未来工具调用，在 LLM 仍在生成时并行执行工具（speculative tool execution） - 具体数据： - 平均任务完成时间降低 43.5% - 观测到的工具延迟降低 1.8× - 在深度研究、编程、科学 Agent 工作负载上验证 - 工程意义： 对生产 Agent 部署（LangChain/LangGraph 流水线、代码助手、研究助手）直接有用 - 可信度： 高（arXiv 2026-03 提交，2026-06-16 最新 v3，v2→v3 有更新） - 源码： arXiv 页面通常附带 GitHub 链接，需进一步查找

保留理由： 近期重要 Agent 系统工程论文，有具体性能数据，适合纳入"Agent 生产工程"主题页。

2. arXiv:2601.20755 — ProfInfer：eBPF 驱动的 LLM 推理细粒度 Profiler ⭐⭐⭐⭐

链接： https://arxiv.org/abs/2601.20755 标题： ProfInfer: An eBPF-based Fine-Grained LLM Inference Profiler 来源： arXiv (cs.SE)，已被 MLSys 2026 接收 核心工程价值： - 问题： 现有 LLM 推理引擎（llama.cpp 等）缺少算子级可见性，开发者无法诊断瓶颈（memory-bound vs compute-bound） - 方案： 基于 eBPF 的非侵入式 profiling 框架，动态 attach probe 到运行时函数，无需修改或重新编译源码 - 具体数据： - 运行时开销 <4% - 高 profiling 保真度 - 支持 dense inference、MoE routing、operator offloading 等场景的可视化 - 工程意义： 对 llama.cpp 生产调优、推理性能诊断有直接工具价值；适合纳入"推理工程工具链"主题页 - 可信度： 高（被 MLSys 2026 接收，有正式评审）

保留理由： MLSys 2026 论文，eBPF + LLM profiling 结合点新颖，<4% 开销数据具有生产可用性。

3. TrueFoundry — KV Cache 路由：为何标准 Load Balancer 破坏 Prefix Caching ⭐⭐⭐⭐

链接： https://www.truefoundry.com/blog/kv-cache-routing-why-standard-load-balancers-break-prefix-caching-and-how-to-fix-it 来源： TrueFoundry Blog 核心工程价值： - 问题： Round-robin 路由使 vLLM/SGLang 的 prefix caching 在多副本部署中失效（请求打到不同 GPU，KV cache 无法复用） - 方案： 三层 prefix-aware routing：Session Affinity → Prefix-Hash Routing → 智能缓存感知调度 - 具体数据（生产基准）： - llm-d 项目（Red Hat K8s 分布式推理框架）：8 pods / 16 H100，prefix-cache-aware routing vs round-robin，TTFT 提升 57×，吞吐量提升 2× - Llama 3.1 70B，4× AMD MI300X：输出 tokens/sec 提升 3×，TTFT 降低 2× - DigitalOcean inference gateway：cache-aware vs random routing，吞吐量提升 108% - Prefix caching 三大场景： - RAG 管道（文档 chunk 跨查询重叠） - 多轮对话（历史消息的 KV cache） - Few-shot prompting（固定示例块复用） - vLLM vs SGLang 实现差异： - vLLM：hash-based block matching - SGLang：RadixAttention（radix tree），多轮工作负载下 reported 最高 5× 吞吐提升 - 工程意义： 对生产推理集群多副本部署有直接指导价值，避免因路由策略浪费 prefix cache 收益 - 可信度： 高（包含具体硬件配置、项目引用、基准数据）

保留理由： 生产级工程问题 + 具体数字 + 三层解决方案；适合纳入"推理系统工程 / KV Cache 管理"主题页。

4. CSDN DeepSeek — vLLM vs SGLang 生产选型：200+ 节点观测性对比 ⭐⭐⭐⭐⭐

链接： https://deepseek.csdn.net/6a1a4a4c662f9a54cb7859a6.html 来源： DeepSeek 技术社区（CSDN 域名） 核心工程价值： - 规模： 200+ 节点大规模压力测试，基于 DeepSeek-V4 部署 - 观测性三层体系： 1. Trace 链路： vLLM 原生 OpenTelemetry 但缺失 KV cache 动态分配监控；SGLang 自动标记 speculative decoding 各阶段（draft/verify/commit），支持树状 span 2. 日志系统： vLLM 非结构化文本 + worker 崩溃丢最后 50 条日志；SGLang 内置 RequestID 全链路透传 + 全量性能日志收集 3. 延迟分解： vLLM 上下文切换开销占 P99 延迟 18%；SGLang 显存碎片整理每小时 2-3 次 300ms+ 尖刺 - 具体 bug 案例（SGLang 内存泄漏）： - 现象：容器每 6 小时重启，RSS 持续增长，无明显 GC 活动 - 解决：--enable-memory-profiler + 限制 Python 堆大小 + 修复 tensor 生命周期管理 - 实测配置参数： - vLLM：gpu_memory_utilization=0.9、--enable_numa_aware、--log-format json - SGLang：--max-parallel-loading 4、CPU 绑核参数、--enable-memory-profiler - MTTR 改进： 观测方案实施后，DeepSeek-V4 平均故障修复时间从 47 分钟降低到 12 分钟 - 工程意义： 真实大规模生产环境数据 + 可落地配置 + 故障案例；适合纳入"SGLang vs vLLM 工程选型"主题页 - 可信度： 高（200+ 节点规模，量化 MTTR 改进，配置参数具体）

保留理由： 高质量生产工程内容，包含真实故障案例、具体配置命令、MTTR 量化收益。CSDN 平台但内容质量达标（量化数据 + 真实场景 + 可操作配置）。

5. 阿里云函数计算 — SGLang vs vLLM 部署 Qwen 性能评测 ⭐⭐⭐

链接： https://help.aliyun.com/zh/cap/user-guide/performance-comparison-of-deploying-qwen-models-using-sglang-and-vllm 来源： 阿里云官方文档 核心工程价值： - 测试环境： 阿里云函数计算 Function AI，GPU 型号 Ada 系列 - 框架版本： SGLang v0.4.6.post2-cu124，vLLM v0.8.5 - 测试工具： 魔搭开源 evalscope - 关键性能数据：

场景	指标	SGLang vs vLLM
Qwen2.5-1.5B 单卡	TTFT/TPOT	SGLang 优 20%~50%
Qwen2.5-1.5B 单卡	Throughput	SGLang 优 20%~40%
Qwen2.5-1.5B 双卡	Throughput 提升	SGLang +25% vs vLLM +15%
Qwen-QWQ-32B-AWQ 双卡	TTFT 提升	SGLang +50% vs vLLM +25%
Qwen-QWQ-32B 双卡	Throughput	SGLang 优 10%~15%

OOM 错误案例： Qwen-QWQ-32B 单卡因权重超过 Ada 系列单卡显存上限，出现 CUDA out of memory 错误
并发建议： Qwen-QWQ-32B-AWQ/32B 建议最大并发数 ≤5
启动耗时： SGLang 比 vLLM 快约 30%（两者均在分钟级别）
工程意义： 提供了具体硬件环境下的 SGLang vs vLLM 性能对比数字；适合作为选型参考
可信度： 中（阿里云官方文档，具体版本号/命令，但为官方对比测试非第三方独立测试）

保留理由： 阿里云官方 benchmark 数据，版本号具体，OOM 错误案例有工程价值。降级为参考级（因非独立第三方）。

6. GitHub Issue #9619 — SGLang 与 vLLM LoRA Qwen3 推理结果 20% 不一致 ⭐⭐⭐

链接： https://github.com/sgl-project/sglang/issues/9619 来源： SGLang 官方 GitHub Issues 核心工程价值： - 问题： 使用 LoRA 微调的 Qwen3-32B，在 vLLM 和 SGLang 上推理同一批 2000 个 prompt，约 20% 结果不一致 - 具体启动命令（vLLM）： python3 -m vllm.entrypoints.openai.api_server \ --model /workspace/Qwen3/model/Qwen3-32B-0825 \ --gpu-memory-utilization=0.95 -tp 2 \ --enable-auto-tool-choice --tool-call-parser hermes \ --enable-reasoning --reasoning-parser qwen3 \ --enable-lora --lora-modules qwen3-32b-level1=/workspace/Qwen3/model/Qwen3-32B-0825-lora/ - 具体启动命令（SGLang）： python3 -m sglang.launch_server \ --model /workspace/Qwen3/model/Qwen3-32B-0825 \ --served-model-name qwen3-32b-level1 \ --mem-fraction-static=0.95 --tp 2 \ --chunked-prefill-size 4096 --trust-remote-code \ --disable-radix-cache \ --lora-paths vision=/workspace/Qwen3/model/Qwen3-32B-0825-lora/ - 注意： SGLang 端同时配置了 --disable-radix-cache，会导致 prefix cache 完全失效（影响性能但不影响结果一致性） - 任务类型： 分类任务，2000 条不同 prompt - 工程意义： 揭示了 vLLM/SGLang 对 LoRA + reasoning 模型支持的行为差异，是真实生产中可能遇到的精度一致性问题 - 可信度： 高（GitHub 公开 issue，有具体命令/复现步骤） - 后续行动： 需追踪 issue 后续是否被确认为 bug 或已知限制

保留理由： 真实 bug 报告，有具体命令和复现步骤；20% 不一致率在生产中是严重问题。适合纳入"SGLang/vLLM 生产问题汇总"主题页。

📊 分类标签

LLM推理 vLLM SGLang 生产可观测性 PrefixCache Agent工程 eBPF MLSys2026 算子优化 LoRA Benchmark KVCache 故障案例 多卡部署

📁 建议写入路径

本次草稿路径： /shared/research-kb/inbox/jay/2026-06-22-1450-engineering-filter-round6-production-observability-prefixcache.md

后续主题页更新建议： - topic-llm-inference-systems.md — PASTE、ProfInfer、TrueFoundry prefix cache 路由 - topic-sglang-vllm-production.md — CSDN DeepSeek 对比、阿里云 benchmark、GitHub issue #9619 - topic-kv-cache-management.md — TrueFoundry 三层路由方案、具体性能数据 - topic-agent-production-engineering.md — PASTE speculative tool execution

🔍 本次未写入原因说明

无（本次已产出完整草稿）。如需精读或审稿请告知。