知识库草稿 · Jay · 2026-06-26 傍晚 5:35

主题

SGLang v0.5.9 生产部署实操 · K8s LLM 推理编排新范式（RBG）· Agentic Search 替代 RAG 新证据 · Substack 推理工程深度文 · 中文平台推理评测

一、SGLang v0.5.9 生产部署实操指南（2026 新版）

来源

Spheron: SGLang Production Deployment Guide: RadixAttention and Multi-Turn Inference on GPU Cloud
https://www.sphoron.network/blog/sglang-production-deployment-guide

核心内容

SGLang 生产部署关键配置（v0.5.9-cu130）：

docker run --gpus all --ipc=host -p 8000:8000 \
  -e HUGGING_FACE_HUB_TOKEN=your_token \
  lmsysorg/sglang:v0.5.9-cu130-runtime \
  python -m sglang.launch_server \
  --model-path meta-llama/Llama-3.3-70B-Instruct \
  --quantization fp8 \
  --context-length 8192 \
  --mem-fraction-static 0.92 \
  --host 0.0.0.0 --port 8000

性能调优 4 条核心经验： 1. 修定 system prompt — 即使微小的空白符变化也会使 cache 失效，prefix 必须完全一致 2. 将对话历史作为 prefix 传入 — 放在用户新输入之前，而非作为独立消息 3. --chunked-prefill-size 4096 — 重叠 prefill 和 decode，改善长上下文延迟 4. --enable-metrics + Prometheus — 监控 sglang_cache_hit_rate 指标

Cache Hit Rate 经济学（长上下文 Agent 系统成本交叉点）： - 当 prefix 复用率 > 60% 时，RadixAttention 的 cache 收益显著超过 PagedAttention - 上下文越长，cache 失效成本越高（128K context 下，一次失效 ≈ 多付 0.3¢）

评价：⭐⭐⭐⭐ 工程实操价值高，命令可直接复用，含 KV cache 成本数学推导，适合生产部署参考。

二、RoleBasedGroup（RBG）：K8s 原生 LLM 推理编排新项目

来源

GitHub: sgl-project/rbg — A Kubernetes API for orchestrating distributed, stateful AI inference workloads with multi-role collaboration
https://github.com/sgl-project/rbg（v0.7.0，2026-06-11，v1alpha2 稳定版）

核心概念

RBG 将 LLM 推理服务视为一个多角色协作的有状态整体，以拓扑化方式管理，而非逐 Pod 管理：

角色（Role）：Leader/Worker/Aggregator 等，每角色有依赖声明
gang scheduling：保证多角色同时调度，避免部分角色等待导致资源浪费
pod port allocator：自动化分配 Pod 端口，避免冲突
coordinated policies：跨角色协调策略

关键示例 YAML（SGLang PD-disaggregated）：

# pd-disagg-leader-worker.yaml
leaderWorkerPattern: true  # 多卡 tensor parallelism
# 或 dynamo/pd-disagg.yaml — PD-disaggregated with Dynamo runtime

Mooncake 集成（ disaggregated 架构，KV cache 跨节点传输复用）： - mooncake-transfer-engine/sgl-pd-disagg-with-mooncake-te.yaml - KV cache 转移引擎实现 decode 节点复用已计算的 cache

kubectl-rbg CLI：管理 RBG 资源和多节点 LLM 部署

评价：⭐⭐⭐⭐ 新兴项目，v0.7.0 已达 stable API，适合中大型 K8s 推理集群运营者关注；PD-disaggregation + Mooncake 是分布式推理的前沿方向。

三、Agentic Search 替代 RAG：ArXiv 新证据

来源 1：Keyword search is all you need（ArXiv 2602.23368）

https://arxiv.org/abs/2602.23368

核心论点：keyword search + agentic tool use 可以达到 RAG 级别性能，无需向量数据库
方法：将检索作为 agent 工具暴露，让 LLM 决定何时调用、如何组合
可信度：⭐⭐⭐ ArXiv 论文，需要复现验证

来源 2：AI Agents Don't Need Vector Search Anymore（Abdullah Grewal, Medium/TowardsAI）

https://buzzgrewal.medium.com/ai-agents-dont-need-vector-search-anymore-inside-the-agentic-search-stack-replacing-rag-in-2026-58efcabe4f6f

核心证据：
Anthropic 2025 年已将 vector search 从 Claude Code 中移除
Claude Code, Cursor, Windsurf, Cline, Sourcegraph Amp 等主流 agentic 系统均不再将语料索引到向量库
多 Agent 研究系统中，agent-as-retriever 模式在内部 evals 上比单 Opus 4 高 90.2%
Just-in-time loading 范式：按需加载，而非预先索引
评价：⭐⭐⭐ 观点性强，有 Anthropic 实际案例支撑；Medium 渠道需交叉验证

来源 3：Building a Modern RAG Agent in 2026: Qwen3 Embeddings + Qdrant（TowardsAI）

https://pub.towardsai.net/building-a-modern-rag-pipeline-in-2026-qwen3-embeddings-and-vector-database-in-qdrant-ebeca2bbe338

项目：ArXiv RAG Project — 对 50 万篇 CS 论文构建 RAG Agent
技术栈：Qwen3-embedding-8b（当前最强 RAG embedding 之一）+ Qdrant + OpenAI Batch API
ETL pipeline：提取 ArXiv 元数据 → 计算 embedding → 存入 Qdrant
评价：⭐⭐⭐ 工程实操文章，含完整 pipeline 代码；与上述"替代 RAG"观点形成有趣对比

观点综合

Agentic search ≠ RAG 已死。两者在2026年呈分化：通用 Agent（Claude Code 类）放弃向量索引；垂直领域知识库（RAG for CS papers）仍在进化。关键差异：开放域 agentic 任务需要动态检索；闭域知识库场景 RAG 仍有结构化优势。

四、Substack 高价值推理工程文两篇

来源 1：LLM Inference at Scale: Batching, Caching, Routing, and Cost Control（DesignGurus Substack）

https://designgurus.substack.com/p/llm-inference-at-scale-batching-caching

核心内容：生产 LLM 系统的高吞吐低成本四大杠杆 1. Batching：continuous batching（vLLM/SGLang 核心）vs static batching 2. Caching：KV cache（前缀共享）+ semantic cache（相似请求） 3. Routing：根据请求特征路由到不同模型/硬件（模型级联） 4. Cost Control：TTFT + TPOT 的 SLO 驱动资源配置
Decode 阶段本质：每个新 token 依赖之前所有 token，串行生成是核心瓶颈
Prefill vs Decode 分离：对长 prompt 预填充可独立优化，decode 阶段延迟对用户体验影响最大
评价：⭐⭐⭐⭐ 推理工程入门+进阶好文，四大杠杆框架清晰，适合做团队内部培训材料

来源 2：The AI Engineer's Guide to Inference Engines and Frameworks（MultimodalAI Substack）

https://multimodalai.substack.com/p/the-ai-engineers-guide-to-inference

覆盖范围：vLLM / SGLang / TensorRT-LLM / Ollama / llama.cpp / TGI 全面对比
选型框架：基于使用场景（本地 / 共享前缀 / 追求 NVIDIA 吞吐 / 追求易用性）给出决策树
MLSys 2026 引用：论文级 benchmark 引用（需核实原始论文）
评价：⭐⭐⭐ 覆盖面广但深度有限，适合做选型初筛，不适合生产决策

五、中文平台：阿里云 SGLang vs vLLM 实测（Qwen 系列）

来源

阿里云文档: 使用SGLang和vLLM部署Qwen系列模型的性能测试与评估
https://help.aliyun.com/zh/cap/user-guide/performance-comparison-of-deploying-qwen-models-using-sglang-and-vllm

核心数据（阿里云函数计算，H100/H200 规格）

模型	指标	SGLang vs vLLM 优势
Qwen2.5-1.5B	TTFT	SGLang 优 20~50%
Qwen2.5-1.5B	TPOT	SGLang 优 20~40%
Qwen-QWQ-32B-AWQ	双卡并发 ≤ 5	吞吐量 ~50 tokens/s
Qwen-QWQ-32B	双卡并发 ≤ 5	吞吐量 ~20 tokens/s（Ada 单卡 OOM）

关键发现： - SGLang 启动速度比 vLLM 快约 30% - 多卡 TP 时，模型越大性能收益越明显（20%~50%） - Qwen-QWQ-32B 单卡 Ada 系列 OOM，需 H100/H200 - 显存利用率均接近 100%（SM 利用率推理时 100%，空闲时 0%）

评价：⭐⭐⭐⭐ 官方云平台实测数据，含具体并发建议数值，适合国内 Qwen 部署选型参考。

来源：ossinsight.io 实时排行

https://ossinsight.io/trending/ai

本周值得关注： - All-Hands-AI/OpenHands（60.6K ⭐，+118/周）— Coding Agent，平台化 - FoundationAgents/MetaGPT（59.7K ⭐，+19）— AI Agents，多 Agent 协作 - anomalyco/opencode（55.6K ⭐，+355）— Coding Agent，增长迅猛 - block/goose（23K ⭐，+166）— Coding Agent，Block 公司出品 - deepset-ai/haystack（21.9K ⭐）— LLM Tools，企业 RAG 框架

趋势观察： - Coding Agent 类仓库持续爆发（OpenHands +355/周） - 企业级 LLM 工具（Haystack）保持稳定增长

分类标签

推理引擎 SGLang vLLM Kubernetes RBG Agentic-Search RAG Qwen MLSys Substack 阿里云

建议写入路径

/shared/research-kb/inbox/jay/2026-06-26-1735-evening-inference-stack-RBG-K8s-agentic-search-substack.md

是否需要精读/审稿/主题页更新

精读候选：「DesignGurus Substack 四大杠杆文」→ 可纳入推理工程培训材料
审稿候选：「阿里云 SGLang vs vLLM 实测数据」→ Qwen 部署选型页更新
主题页更新：推理引擎选型页 + K8s AI 推理编排页 + Agentic Search vs RAG 对比页