← 笔记
Jay 2026-06-26 17:35

知识库草稿 · Jay · 2026-06-26 傍晚 5:35

主题

SGLang v0.5.9 生产部署实操 · K8s LLM 推理编排新范式(RBG)· Agentic Search 替代 RAG 新证据 · Substack 推理工程深度文 · 中文平台推理评测


一、SGLang v0.5.9 生产部署实操指南(2026 新版)

来源

核心内容

SGLang 生产部署关键配置(v0.5.9-cu130)

docker run --gpus all --ipc=host -p 8000:8000 \
  -e HUGGING_FACE_HUB_TOKEN=your_token \
  lmsysorg/sglang:v0.5.9-cu130-runtime \
  python -m sglang.launch_server \
  --model-path meta-llama/Llama-3.3-70B-Instruct \
  --quantization fp8 \
  --context-length 8192 \
  --mem-fraction-static 0.92 \
  --host 0.0.0.0 --port 8000

性能调优 4 条核心经验: 1. 修定 system prompt — 即使微小的空白符变化也会使 cache 失效,prefix 必须完全一致 2. 将对话历史作为 prefix 传入 — 放在用户新输入之前,而非作为独立消息 3. --chunked-prefill-size 4096 — 重叠 prefill 和 decode,改善长上下文延迟 4. --enable-metrics + Prometheus — 监控 sglang_cache_hit_rate 指标

Cache Hit Rate 经济学(长上下文 Agent 系统成本交叉点): - 当 prefix 复用率 > 60% 时,RadixAttention 的 cache 收益显著超过 PagedAttention - 上下文越长,cache 失效成本越高(128K context 下,一次失效 ≈ 多付 0.3¢)

评价:⭐⭐⭐⭐ 工程实操价值高,命令可直接复用,含 KV cache 成本数学推导,适合生产部署参考。


二、RoleBasedGroup(RBG):K8s 原生 LLM 推理编排新项目

来源

  • GitHub: sgl-project/rbgA Kubernetes API for orchestrating distributed, stateful AI inference workloads with multi-role collaboration
    https://github.com/sgl-project/rbg(v0.7.0,2026-06-11,v1alpha2 稳定版)

核心概念

RBG 将 LLM 推理服务视为一个多角色协作的有状态整体,以拓扑化方式管理,而非逐 Pod 管理:

  • 角色(Role):Leader/Worker/Aggregator 等,每角色有依赖声明
  • gang scheduling:保证多角色同时调度,避免部分角色等待导致资源浪费
  • pod port allocator:自动化分配 Pod 端口,避免冲突
  • coordinated policies:跨角色协调策略

关键示例 YAML(SGLang PD-disaggregated):

# pd-disagg-leader-worker.yaml
leaderWorkerPattern: true  # 多卡 tensor parallelism
# 或 dynamo/pd-disagg.yaml — PD-disaggregated with Dynamo runtime

Mooncake 集成( disaggregated 架构,KV cache 跨节点传输复用): - mooncake-transfer-engine/sgl-pd-disagg-with-mooncake-te.yaml - KV cache 转移引擎实现 decode 节点复用已计算的 cache

kubectl-rbg CLI:管理 RBG 资源和多节点 LLM 部署

评价:⭐⭐⭐⭐ 新兴项目,v0.7.0 已达 stable API,适合中大型 K8s 推理集群运营者关注;PD-disaggregation + Mooncake 是分布式推理的前沿方向。


三、Agentic Search 替代 RAG:ArXiv 新证据

来源 1:Keyword search is all you need(ArXiv 2602.23368)

https://arxiv.org/abs/2602.23368

  • 核心论点:keyword search + agentic tool use 可以达到 RAG 级别性能,无需向量数据库
  • 方法:将检索作为 agent 工具暴露,让 LLM 决定何时调用、如何组合
  • 可信度:⭐⭐⭐ ArXiv 论文,需要复现验证

来源 2:AI Agents Don't Need Vector Search Anymore(Abdullah Grewal, Medium/TowardsAI)

https://buzzgrewal.medium.com/ai-agents-dont-need-vector-search-anymore-inside-the-agentic-search-stack-replacing-rag-in-2026-58efcabe4f6f

  • 核心证据
  • Anthropic 2025 年已将 vector search 从 Claude Code 中移除
  • Claude Code, Cursor, Windsurf, Cline, Sourcegraph Amp 等主流 agentic 系统均不再将语料索引到向量库
  • 多 Agent 研究系统中,agent-as-retriever 模式在内部 evals 上比单 Opus 4 高 90.2%
  • Just-in-time loading 范式:按需加载,而非预先索引
  • 评价:⭐⭐⭐ 观点性强,有 Anthropic 实际案例支撑;Medium 渠道需交叉验证

来源 3:Building a Modern RAG Agent in 2026: Qwen3 Embeddings + Qdrant(TowardsAI)

https://pub.towardsai.net/building-a-modern-rag-pipeline-in-2026-qwen3-embeddings-and-vector-database-in-qdrant-ebeca2bbe338

  • 项目:ArXiv RAG Project — 对 50 万篇 CS 论文构建 RAG Agent
  • 技术栈:Qwen3-embedding-8b(当前最强 RAG embedding 之一)+ Qdrant + OpenAI Batch API
  • ETL pipeline:提取 ArXiv 元数据 → 计算 embedding → 存入 Qdrant
  • 评价:⭐⭐⭐ 工程实操文章,含完整 pipeline 代码;与上述"替代 RAG"观点形成有趣对比

观点综合

Agentic search ≠ RAG 已死。两者在2026年呈分化:通用 Agent(Claude Code 类)放弃向量索引;垂直领域知识库(RAG for CS papers)仍在进化。关键差异:开放域 agentic 任务需要动态检索;闭域知识库场景 RAG 仍有结构化优势。


四、Substack 高价值推理工程文两篇

来源 1:LLM Inference at Scale: Batching, Caching, Routing, and Cost Control(DesignGurus Substack)

https://designgurus.substack.com/p/llm-inference-at-scale-batching-caching

  • 核心内容:生产 LLM 系统的高吞吐低成本四大杠杆 1. Batching:continuous batching(vLLM/SGLang 核心)vs static batching 2. Caching:KV cache(前缀共享)+ semantic cache(相似请求) 3. Routing:根据请求特征路由到不同模型/硬件(模型级联) 4. Cost Control:TTFT + TPOT 的 SLO 驱动资源配置
  • Decode 阶段本质:每个新 token 依赖之前所有 token,串行生成是核心瓶颈
  • Prefill vs Decode 分离:对长 prompt 预填充可独立优化,decode 阶段延迟对用户体验影响最大
  • 评价:⭐⭐⭐⭐ 推理工程入门+进阶好文,四大杠杆框架清晰,适合做团队内部培训材料

来源 2:The AI Engineer's Guide to Inference Engines and Frameworks(MultimodalAI Substack)

https://multimodalai.substack.com/p/the-ai-engineers-guide-to-inference

  • 覆盖范围:vLLM / SGLang / TensorRT-LLM / Ollama / llama.cpp / TGI 全面对比
  • 选型框架:基于使用场景(本地 / 共享前缀 / 追求 NVIDIA 吞吐 / 追求易用性)给出决策树
  • MLSys 2026 引用:论文级 benchmark 引用(需核实原始论文)
  • 评价:⭐⭐⭐ 覆盖面广但深度有限,适合做选型初筛,不适合生产决策

五、中文平台:阿里云 SGLang vs vLLM 实测(Qwen 系列)

来源

核心数据(阿里云函数计算,H100/H200 规格)

模型 指标 SGLang vs vLLM 优势
Qwen2.5-1.5B TTFT SGLang 优 20~50%
Qwen2.5-1.5B TPOT SGLang 优 20~40%
Qwen-QWQ-32B-AWQ 双卡并发 ≤ 5 吞吐量 ~50 tokens/s
Qwen-QWQ-32B 双卡并发 ≤ 5 吞吐量 ~20 tokens/s(Ada 单卡 OOM)

关键发现: - SGLang 启动速度比 vLLM 快约 30% - 多卡 TP 时,模型越大性能收益越明显(20%~50%) - Qwen-QWQ-32B 单卡 Ada 系列 OOM,需 H100/H200 - 显存利用率均接近 100%(SM 利用率推理时 100%,空闲时 0%)

评价:⭐⭐⭐⭐ 官方云平台实测数据,含具体并发建议数值,适合国内 Qwen 部署选型参考。


来源:ossinsight.io 实时排行

https://ossinsight.io/trending/ai

本周值得关注: - All-Hands-AI/OpenHands(60.6K ⭐,+118/周)— Coding Agent,平台化 - FoundationAgents/MetaGPT(59.7K ⭐,+19)— AI Agents,多 Agent 协作 - anomalyco/opencode(55.6K ⭐,+355)— Coding Agent,增长迅猛 - block/goose(23K ⭐,+166)— Coding Agent,Block 公司出品 - deepset-ai/haystack(21.9K ⭐)— LLM Tools,企业 RAG 框架

趋势观察: - Coding Agent 类仓库持续爆发(OpenHands +355/周) - 企业级 LLM 工具(Haystack)保持稳定增长


分类标签

推理引擎 SGLang vLLM Kubernetes RBG Agentic-Search RAG Qwen MLSys Substack 阿里云


建议写入路径

/shared/research-kb/inbox/jay/2026-06-26-1735-evening-inference-stack-RBG-K8s-agentic-search-substack.md

是否需要精读/审稿/主题页更新

  • 精读候选:「DesignGurus Substack 四大杠杆文」→ 可纳入推理工程培训材料
  • 审稿候选:「阿里云 SGLang vs vLLM 实测数据」→ Qwen 部署选型页更新
  • 主题页更新:推理引擎选型页 + K8s AI 推理编排页 + Agentic Search vs RAG 对比页