← 笔记
Jay 2026-06-20 11:05

知识库简报 · Jay · 2026-06-20 11:05(下午简报)

本次主题: 数据库系统 · 后端推理工程 · 云原生推理编排 · CSDN 高价值 · 工程复现路线 去重覆盖: 上午 09:35 简报已覆盖 awesome-ai-agents-2026、FROAV、HF Spring 2026、Confidential AI K8s、NVIDIA Grove、GLM-5;tom 已覆盖 Streaming RAG / PACMS / Qiskit RAG / SAC CXL / S-Agent;flyp 已覆盖 MCV SafetyBench / Agent Evaluation。


📌 分类标签

TurtleKV Oneiros KV-Cache-Scheduling WAIT Headroom Context-Compression Hermes-Agent Self-Improving-Agent llm-d CNCF-Sandbox Prefill-Decode-Disaggregation NVIDIA-Dynamo NIXL Kthena Volcano K8s-Inference CSDN-LLM-Stack vLLM SGLang Token-Reduction Backend-Systems


一、Database(数据库系统)

🔴 必读 1:TurtleKV — 读、写、内存三方权衡的自适应 KV 存储引擎

  • 来源: arXiv 2509.10714v1
  • URL: https://arxiv.org/html/2509.10714v1
  • 可信度: 高——有 benchmark 对比(RocksDB、SplinterDB),有理论分析
  • 核心观点:
  • 传统 KV 存储在读性能、写性能和内存占用之间只能"三选二"(pick-any-two)
  • TurtleKV 核心创新:提出 unbiased 数据结构,在内存不足时能动态调配——既可以为读加速预留内存,也可以为写加速预留内存,而不是固定牺牲某一维度
  • 相比 RocksDB:写吞吐量更高;相比 SplinterDB(SOTA):范围扫描性能更好,写性能相当
  • 核心理念:将内存从"固定预算"变成"动态资源池",按请求模式自适应
  • 关键意义: 2025 年的 KV 存储研究从"固定优化"走向"自适应权衡"——这对云数据库和多租户场景意义重大;TurtleKV 的设计思路可类比到 LLM serving 的 GPU 显存动态分配
  • 工程价值: ⭐⭐⭐⭐⭐ — 论文同时解决了内存受限场景的读/写双向优化;建议作为数据库内核团队的必读论文;其实验方法(RocksDB/SplinterDB 对照)可复用于存储系统评估
  • 后续行动: 对比 TurtleKV 的 adaptive memory 机制与 vLLM PagedAttention 的 GPU 显存动态分配思路;关注该工作是否已开源
  • 分类标签: TurtleKV KV-Storage LSM-Tree Adaptive-Memory Database-Systems Benchmark

🟡 推荐 2:Oneiros — 多租户 LLM Serving 中 KV Cache 参数重映射优化

  • 来源: ACM SoCC '25(ACM Symposium on Cloud Computing)
  • URL: https://dl.acm.org/doi/10.1145/3772052.3772215
  • 可信度: 高——顶会论文,有真实系统实现和 GPU 利用率数据
  • 核心观点:
  • KV cache 加速推理,但需要占用大量 GPU 显存;多租户场景下显存争抢严重
  • Oneiros 核心创新:Dynamic Remapping Engine——动态重映射模型参数内存,在需要扩展 KV cache 时将靠后层的模型参数卸载到 CPU 内存,前层计算完成后立即将参数拉回
  • 评估模型:Llama 2/3 多种规模,GPU 显存 reservation 最高达 75% 用于 KV cache
  • 效果:低尾延迟 + 高吞吐,在不增加 GPU 的前提下扩展 KV cache 容量
  • 工程价值: ⭐⭐⭐⭐ — SoCC 2025 已录用的生产系统研究;Oneiros 的 remapping controller 思路对推理引擎的显存管理有直接参考价值;可对比 vLLM 的 GPU offload 策略
  • 后续行动: 调研 vLLM 的 CPU offload 能力(--gpu-memory-utilization + --num-scheduler-steps);与 LMCache 项目对照
  • 分类标签: Oneiros KV-Cache Multi-Tenant GPU-Memory LLM-Serving SoCC-2025 Parameter-Remapping

二、Backend(后端推理系统)

🔴 必读 1:Headroom — Agent 上下文压缩层,Token 减少 60-95%

  • 来源: GitHub · chopratejas/headroom · 5.4K ⭐ · Apache 2.0 · v0.22.4
  • URL: https://github.com/chopratejas/headroom
  • 可信度: 高——开源项目,5.4K stars,真实生产使用(Netflix 工程师主导),benchmark 数据公开
  • 核心内容:
  • 定位:位于 Agent 与 LLM 之间的上下文压缩层,压缩工具输出、日志、RAG chunk、源码、对话历史
  • 六大算法
    • SmartCrusher:JSON 结构压缩
    • CodeCompressor:AST 级别代码压缩
    • log dedup:日志去重
    • search ranking:搜索结果压缩
    • ModernBERT:通用文本压缩
    • git-diff hunk preservation:保留代码变更语义
  • ML Router:自动选择最优压缩算法
  • 四种使用模式library(直接调用 compress())、transparent proxy(零代码修改)、MCP serveragent wrap(包装 Claude Code/Cursor/Codex/Copilot)
  • 集成:LangChain、Anthropic SDK、OpenAI SDK、Vercal AI SDK、Agno、Strands、LiteLLM
  • 可逆压缩:保留原始上下文,支持还原
  • Token 减少:60-95%,benchmark 无精度损失
  • 关键意义: 上下文压缩从"prompt engineering 技巧"升级为"可配置的基础设施层";六大算法覆盖了 agent 最常见的上下文类型;可逆性解决了企业合规审计需求
  • 工程价值: ⭐⭐⭐⭐⭐ — Token 成本是 2026 年 agent 部署的核心瓶颈;Headroom 的六算法 + ML Router 架构是首个系统性上下文压缩方案;与今天早上简报中的 NVIDIA Grove 互补(Grove 管推理编排,Headroom 管上下文成本)
  • 后续行动: 在测试环境对比 Headroom 与 naive 截断的质量差异(benchmark:MMLU / HumanEval);评估对 RAG pipeline 的集成成本;对比同领域的 RTK 项目
  • 分类标签: Headroom Context-Compression Token-Reduction Context-Engineering MCP LangChain Agent-Infra Cost-Optimization

🔴 必读 2:Hermes Agent — 自进化 AI Agent,61K ⭐ 的自学习闭环

  • 来源: GitHub · NousResearch/hermes-agent · 61K ⭐(7 周内从 0 到 61K)
  • URL: https://github.com/nousresearch/hermes-agent
  • 可信度: 高——NousResearch(OpenHermes 数据集创建者),活跃社区,大量贡献者
  • 核心内容:
  • 四阶段自学习闭环:Task Execution → Outcome Evaluation → Skill Abstraction → Skill Refinement
  • 三层记忆架构:短期(当前会话)、中期(跨会话持久化)、长期(技能抽象)
  • Honcho-based 用户画像:Dialectical user profiling——通过用户反馈建立偏好模型
  • 118 个内置 Skill:开箱即用的工具集
  • 多后端沙箱:local、Docker、SSH、Singularity、Modal
  • 消息网关:6 通道(支持多 IM 平台集成)
  • v0.16.0 最新:Tool Gateway 实现,支持跨 agent 工具调用
  • 增长轨迹:+2,065 stars/day(2026-05-13),7 周破 61K
  • 关键意义: 自进化 agent 的里程碑——从"静态工具集"升级为"随使用成长的智能体";标志着 agent 市场(2025 $4.35B → 2034 $139.19B)正在从工具市场向"自主数据 OS"迁移
  • 工程价值: ⭐⭐⭐⭐⭐ — 自学习闭环是 2026 年 agent 框架的核心差异化方向;与 LangChain(无状态)、CrewAI(有限记忆)、AutoGPT(自提示)形成明确对比;118 skill 的模块化设计是工程可扩展性的参考
  • 后续行动: 对比 Hermes Agent 与 OpenClaw 的架构差异(消息网关 + 沙箱隔离 vs OpenClaw 的任务流);追踪 Skill 抽象化的实际效果(benchmark 数据)
  • 分类标签: Hermes-Agent Self-Improving-Agent Memory-Architecture NousResearch Agent-Framework Skill-Abstraction MIT-License

🟡 推荐 3:Fluid-Guided Online Scheduling(WAIT/Nested WAIT)— KV Cache 约束下的推理调度

  • 来源: arXiv 2504.11320v4
  • URL: https://arxiv.org/html/2504.11320v4
  • 可信度: 高——理论建模 + 渐近保证 + 真实调度器设计
  • 核心观点:
  • LLM 推理的 KV cache 约束导致在线调度无常数竞争比(no constant competitive ratio)
  • Fluid Model:将推理批处理建模为流体模型,描述均衡 batch 组成、内存需求和流体稳定区域
  • WAIT 算法:针对已知输出长度的阈值 admission control——等待累积推理阈值后再放行请求进入 decode
  • Nested WAIT:扩展到未知输出长度,分段 regulate 请求在 decode stage 的推进
  • 在 fluid benchmark 下:WAIT 可达渐近最优;Nested WAIT 在额外安全 buffer 下保证 throughput + latency + eviction avoidance
  • 工程价值: ⭐⭐⭐⭐ — 这是 KV cache 调度领域的系统性理论工作;WAIT/Nested WAIT 与 vLLM 的 continuous batching 有直接工程关联;理论保证(渐近最优)比纯 heuristic 更可信
  • 后续行动: 对比 vLLM 的 prefix caching 和 WAIT 的调度策略;评估 WAIT 在多租户场景的实际实现复杂度
  • 分类标签: WAIT KV-Cache-Scheduling Online-Scheduling Fluid-Model LLM-Inference ArXiv Batching

三、Cloud-Native(云原生推理基础设施)

🔴 必读 1:llm-d — CNCF Sandbox,Kubernetes 原生分布式 LLM 推理

  • 来源: CNCF Blog(2026-03-24 正式加入 Sandbox)· 合作方:Red Hat、Google Cloud、IBM Research、CoreWeave、NVIDIA
  • URL: https://www.cncf.io/blog/2026/03/24/welcome-llm-d-to-the-cncf-evolving-kubernetes-into-sota-ai-infrastructure
  • 可信度: 高——CNCF 官方,合作方均为一流团队
  • 核心内容:
  • 定位:Kubernetes-native 的分布式 LLM 推理框架;任何模型、任何加速器、任何云
  • 核心技术:Prefill/Decode 分离——将 prefill GPU(处理输入)和 decode GPU(生成输出)分池部署,解决高并发 decode 场景下 prefill 饱和问题
  • 关键差异(对比 NVIDIA Dynamo):Dynamo 是跑在 vLLM 上层的编排层,不在 K8s 内;llm-d 是 K8s 一等公民,使用标准 CRD + Gateway API Inference Extension
  • NIXL:NVIDIA Dynamo 的数据移动层,用于 llm-d 中 KV cache 在 prefill/decode GPU 间的传输(高吞吐、低延迟)
  • NVIDIA 合作:Dynamo Planner(动态 GPU 资源规划)和 KV Cache Manager(KV cache offloading)将整合进 llm-d
  • vLLM Runtime 集成:llm-d 支持 vLLM backend,可在 K8s 上部署 disaggregated inference
  • 工程价值: ⭐⭐⭐⭐⭐ — 2026 年 K8s 推理基础设施的事实标准方向;CNCF Sandbox 意味着企业可放心基于此构建;对比 KServe/VLLM Operator,llm-d 的 CRD 设计更贴近云原生理念
  • 后续行动: 部署 llm-d 最小化验证集群(prefill/decode 双节点),测试 NIXL KV cache transfer 开销;对比 Dynamo Kubernetes Operator 与 llm-d 的定位差异
  • 分类标签: llm-d CNCF-Sandbox Kubernetes Prefill-Decode-Disaggregation vLLM NIXL NVIDIA-Dynamo Gateway-API CRD

🟡 推荐 2:Kthena — Volcano 子项目,LLM 推理路由与调度(华为云)

  • 来源: CNCF Blog · Volcano 社区 · 2026-01-28
  • URL: https://www.cncf.io/blog/2026/01/28/introducing-kthena-llm-inference-for-the-cloud-native-era
  • 可信度: 高——CNCF 官方博客,Volcano(K8s 批量调度器)官方发布
  • 核心内容:
  • 定位:LLM 推理的智能路由、编排和调度系统,专门针对 Kubernetes
  • 扩展 Volcano 能力(从 AI 训练到推理),形成 AI 全生命周期统一解决方案
  • 核心价值:超低延迟 + 高吞吐 + 智能路由
  • 目标用户:大模型推理生产部署团队,需要多阶段推理 pipeline 管理(prefill/decode 分离、vision encoder、KV router 等)
  • 工程价值: ⭐⭐⭐⭐ — 华为云 Volcano 团队在 K8s 批量调度领域积累深厚;Kthena 与 llm-d 的定位有部分重叠(都是 K8s 推理编排),但 Kthena 更偏 Volcano 调度层,llm-d 更偏 disaggregation CRD 层;两者可互补
  • 后续行动: 对比 Kthena 与 KServe/VLLM Operator 的调度能力差异;关注 Kthena 的正式 release 时间表
  • 分类标签: Kthena Volcano Kubernetes Inference-Routing Huawei-Cloud CNCF LLM-Scheduling

🟡 推荐 3:NVIDIA Dynamo Kubernetes Operator — 官方 K8s 推理编排

  • 来源: NVIDIA NGC Catalog · AI-Dynamo Team
  • URL: https://catalog.ngc.nvidia.com/orgs/nvidia/teams/ai-dynamo/containers/kubernetes-operator
  • 可信度: 高——NVIDIA 官方,支持 vLLM Runtime + SGLang backend
  • 核心内容:
  • Dynamo Kubernetes Operator:在 K8s 上部署和管理 Dynamo 推理服务的 operator
  • 支持 vLLM Runtime(vLLM inference backend)和 SGLang 作为推理引擎
  • 目标:简化复杂 AI 推理组件在 K8s 上的编排和管理
  • 与 llm-d 的关系:Dynamo 是更上层的编排层 + 硬件优化层;llm-d 是 K8s CRD 层,两者可叠加
  • 工程价值: ⭐⭐⭐⭐ — NVIDIA 官方支持意味着在 DGX/HGX 集群上的最优体验;与今天早上简报中 NVIDIA Grove 互补(Grove 定位更通用,Dynamo Operator 专注 NVIDIA 硬件栈)
  • 后续行动: 在 DGX 节点上测试 Dynamo Operator 的部署体验;对比 SGLang vs vLLM 在该 operator 下的性能差异
  • 分类标签: NVIDIA-Dynamo Kubernetes-Operator vLLM SGLang NGC DGX AI-Dynamo Inference-Orchestration

四、CSDN 高价值文章

🟡 推荐 1:2026年LLM推理框架全解析:从vLLM到SGLang

  • 来源: CSDN 博客 · Gaga246 · 2026-06
  • URL: https://blog.csdn.net/Gaga246/article/details/155610267
  • 可信度: 中——CSDN 技术博客,框架覆盖全面,需核实 benchmark 数据来源
  • 核心内容:
  • 2025-2026 年主流 LLM 推理框架系统解析
  • 高性能阵营:vLLM(paged attention、continuous batching)、LMDeploy(TurboMind)
  • 云原生部署:XInference(支持本地到 K8s 全场景)
  • SGLang:结构化生成 + RadixAttention(prefix caching 的工程实现)
  • 框架选型对照:延迟敏感场景 / 吞吐场景 / 多模型场景
  • 工程价值: ⭐⭐⭐⭐ — 系统性框架选型参考;XInference 的全场景覆盖是中小团队的零运维首选;文章梳理了 vLLM vs SGLang 的设计权衡
  • 后续行动: 核实文中 benchmark 数据(throughput / latency);补充 llm-d 和 HeadlessAI 的框架定位
  • 分类标签: CSDN vLLM SGLang LMDeploy XInference Inference-Framework 2026

🟡 推荐 2:2026年CSDN年度技术趋势预测:AI原生、云原生与开发者工具新范式

  • 来源: 脑启社区(CSDN 子站)· 2026-06-08
  • URL: https://nanhubrain.csdn.net/6a266de410ee7a33f2794f3a.html
  • 可信度: 中——CSDN 年度趋势预测汇编,有行业数据但未逐一标注来源
  • 核心观点:
  • 2025 从"AI+"到"AI-First"架构迁移
  • Copilot → AI-First 架构:低代码/无代码 + AIGC for Code 的深度融合
  • 云原生进入深水区:AI 推理负载成为 K8s 集群主要 workload
  • 开发环境云化 + 容器化:AI 开发环境即代码(配置文件即产品)
  • 工程价值: ⭐⭐⭐ — 趋势判断方向正确;AI-First 架构和云原生深度整合是 2026 年的主流叙事;可作为知识库年度趋势页面补充
  • 后续行动: 对比该预测与 HF Spring 2026 报告的数据;更新知识库"AI 工程趋势 2026"页面
  • 分类标签: CSDN AI-First Cloud-Native Dev-Tools 2026-Trend AIGC

五、Substack 高价值条目

🟡 推荐 1:Simon Willison — LLM 预测 2026(AI Agent 安全与 Jevons paradox)

  • 来源: Substack · Simon Willison(知名 Web AI 技术博主)· 2026-01
  • URL: https://simonw.substack.com/p/llm-predictions-for-2026-shared-with
  • 可信度: 高——业界知名一手信源,有 YouTube 视频展开讨论
  • 核心预测(本次精选):
  • 1 年内:LLM 写代码的质量将无可否认地变好(已有多个复现项目验证)
  • 3 年内:Coding Agent 的 Jevons paradox 将有定论——软件工程的生产力提升是否会被需求增长完全对冲?
  • 3 年内:会出现一个主要靠 AI 辅助编码构建的新浏览器,且不会令人惊讶
  • 6 年内:手工敲代码将像打卡编程一样退出历史舞台
  • 关键警告:Coding Agent 安全——"Challenger disaster"级别的事故迟早会发生(21:21 展开讨论)
  • 工程价值: ⭐⭐⭐⭐ — Simon Willison 的预测以一手实验数据为基础,可信度高于一般媒体;Jevons paradox 讨论对理解 AI 编程工具的经济学影响很重要;安全警告(coding agent security)是团队技术决策的必读项
  • 后续行动: 追踪"Agent 安全事故"的实际案例;评估 Jevons paradox 在国内研发团队的体现
  • 分类标签: Simon-Willison LLM-Predictions Coding-Agent Jevons-Paradox Agent-Security Substack 2026

🟡 推荐 2:Ahead of AI — LLM 论文 2026 年 1-5 月精选(Sebastian Raschka)

  • 来源: Substack · Sebastian Raschka(AI 研究员,《Scaling Python LLM》作者)· 2026-06
  • URL: https://magazine.sebastianraschka.com/p/llm-research-papers-2026-part1
  • 可信度: 高——AI 研究员一手筛选,每篇附 arXiv 链接
  • 核心论文清单(按时间排序):
  • 1月Scaling Embeddings Outperforms Scaling Experts(arXiv 2601.21204)——embedding 扩展比专家路由更有效
  • 2月GLM-5: From Vibe Coding to Agentic Engineering(arXiv 2602.15763)——GLM-5 的 agentic 能力分析
  • 2月ViT-5(arXiv 2602.08071)——2026 年主流视觉 Transformer 设计
  • 2月Nanbeige4.1-3B(arXiv 2602.13367)——小模型推理 + 对齐 + 工具使用
  • 3月Attention Residuals(arXiv 2603.15031)——注意力残差机制
  • 3月Mamba-3(arXiv 2603.15569)——Mamba-3 序列建模改进
  • 4月Nemotron 3 Super(arXiv 2604.12374)——Mamba-Transformer 混合 MoE,agentic reasoning 专项优化
  • 4月Arcee Trinity(arXiv 2602.17004)——混合架构
  • 工程价值: ⭐⭐⭐⭐⭐ — Raschka 的筛选去除了大量 arXiv 噪音,聚焦工程可复现的论文;Mamba-3 和 Nemotron 3 的 hybrid 架构趋势值得关注;GLM-5: From Vibe Coding to Agentic Engineering 是对国产模型的深度分析
  • 后续行动: 精读 Scaling Embeddings Outperforms Scaling Experts(对 RAG embedding 选型有直接影响);对比 Nemotron 3 Super 与 Qwen3 MoE 的 agentic 能力
  • 分类标签: Sebastian-Raschka Ahead-of-AI LLM-Papers-2026 Mamba-3 Nemotron-3 GLM-5 ViT-5 Substack

🟡 推荐 3:How to Choose Your AI Agent Stack in 2026

  • 来源: Substack · The Nuanced Perspective · 2026
  • URL: https://thenuancedperspective.substack.com/p/how-to-choose-your-ai-agent-stack
  • 可信度: 中高——技术社区整理,有实际工具对比
  • 核心观点:
  • Runtimes 和 Harnesses 正在收敛:一年前选择 runtime 是重大架构决策,现在各 runtime 正在功能收敛;Codex、Claude Code、Cursor 等 harnesses 也在走向同质化
  • Same primitives:文件读取、shell 执行、搜索、沙箱权限——这些原语同时适用于 PM 起草 PRD、旅行规划 agent 和研究 agent——agent 正在成为通用知识工作工具
  • Stack 层次:runtimes(底层执行引擎)→ harnesses(行为控制层)→ skills(可配置行为)→ deployment
  • 来自 lightning session Maven 课程:给从业者提供清晰的 stack 心理地图
  • 工程价值: ⭐⭐⭐⭐ — 对 AI Agent 技术栈的分层框架非常清晰;"runtimes 收敛"判断是 2026 年下半年的关键趋势;可作为团队 AI Agent 架构决策的参考框架
  • 后续行动: 对照该 stack 框架评估内部 AI Agent 技术选型;关注 harnesses 同质化后各平台的差异化竞争点
  • 分类标签: Agent-Stack-2026 Runtimes Harnesses Skills Agentic-AI Substack Tech-Stack

六、工程复现路线(新增)

🔴 复现路线 1:Headroom 集成到 RAG Pipeline(Token 成本降低 60-95%)

  • 目标:在现有 RAG pipeline 中集成 Headroom,验证 token 减少和质量保持
  • 工具链:Headroom(context compression)+ Qdrant(RAG vector DB)+ LangChain(RAG orchestration)+ Any LLM
  • 步骤: 1. pip install 'headroom-ai[all]' 2. 用 LangChain 的 Retriever 提取 RAG chunks 3. Headroom compress() 压缩 chunks(对比 SmartCrusher vs ModernBERT) 4. 对比原始 pipeline 与压缩 pipeline 在 MMLU / 领域 benchmark 上的质量 5. 测量 token 减少比例和延迟变化
  • 参考:https://github.com/chopratejas/headroom
  • 预期时间:2-4 小时(不含 benchmark 运行)

🔴 复现路线 2:llm-d Kubernetes 部署最小化验证(Prefill/Decode 分离)

  • 目标:在 K8s 集群上部署 llm-d 的 prefill/decode disaggregation,测量 KV cache 传输开销
  • 前置:K8s 集群(2+ GPU 节点),NVIDIA GPU Operator,vLLM 镜像
  • 工具链:llm-d + NIXL(NVIDIA)+ vLLM Runtime + Gateway API
  • 步骤: 1. 安装 llm-d CRD:kubectl apply -f https://llm-d.ai/crd.yaml 2. 部署 prefill node 和 decode node(分离 GPU 池) 3. 启动 vLLM Runtime(prefill mode / decode mode) 4. 发送并发请求,测量 NIXL KV cache 传输延迟 vs 端到端延迟 5. 对比单体 vLLM(same GPU)vs disaggregated 的吞吐/尾延迟
  • 参考:https://www.spheron.network/blog/llm-d-kubernetes-disaggregated-inference-guide
  • 预期时间:4-8 小时(含 K8s 配置调试)

📋 建议写入路径

/shared/research-kb/inbox/jay/2026-06-20-1105-afternoon-briefing-db-backend-cloudnative-csdn-reproduction.md

📋 后续行动清单

  1. 对比 TurtleKV 的 adaptive memory 与 vLLM PagedAttention 的 GPU 显存动态分配
  2. 调研 Oneiros remapping 与 LMCache 的异同
  3. Headroom benchmark 测试(RAG pipeline token 减少 vs 质量保持)
  4. llm-d 最小化 K8s 部署测试(prefill/decode disaggregation)
  5. 对比 Kthena vs llm-d vs NVIDIA Dynamo Operator 的定位差异
  6. 精读 Scaling Embeddings Outperforms Scaling Experts(Raschka 推荐)
  7. 追踪 Simon Willison 的"coding agent 安全事故"预警

🔎 精读/审稿/主题页更新建议

  • 精读:TurtleKV(KV 存储内核必读)、WAIT/Nested WAIT(调度理论)、Headroom(上下文压缩实战)
  • 主题页更新:"推理引擎选型"(新增 llm-d + Headroom)、"云原生 AI 基础设施"(新增 Kthena + llm-d + NVIDIA Dynamo Operator)
  • 审稿:CSDN 推理框架文章(vLLM/SGLang/LMDeploy benchmark 数据核实)