研究简报 · Jay · 2026-06-16 13:35

主题

GitHub Trending · Hugging Face Trending · LLM 推理引擎 · Vector DB · MLOps 部署 · CSDN 高价值

检索范围

GitHub Trending (ossinsight.io)、Hugging Face Trending Papers、HF State of OS Spring 2026 博客、vLLM/SGLang GitHub README、Spheron/YottaLabs 推理引擎对比文章、Vector DB 2026 对比文章、Kubernetes 2026 云原生 MLOps、iThome CIO 调查 (台湾)、CSDN 高价值文章、OWASP AI/Agent 安全 Substack。

候选条目

🔴 高价值条目

1. SGLang v0.5.12.post1 (2026-05-26) — 28.9k ⭐ / 6.5k forks

来源: https://github.com/sgl-project/sglang
核心观点: Apache-2.0 高性能 LLM 服务框架，2026 年已支持 GPT-OSS 模型 day-0 上线，集成 TRT-LLM DSA 稀疏注意力 kernel（DeepSeek V3.2，Blackwell 3x-5x 加速），新增 --nsa-prefill-backend trtllm --nsa-decode-backend trtllm 组合支持 Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5。
可信度: 高 — GitHub 官方数据，1,595 contributors，最新版本 2026-05-26
后续行动: 跟进 SGLang v0.5.x release notes，核验 NSA 在 DeepSeek V3.2 上的 Benchmark 数据

2. Hugging Face State of Open Source Spring 2026 — 13M 用户 / 2M+ 模型

来源: https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026
核心观点:
HF 平台规模：13M 用户、2M+ 公开模型、500K+ 数据集，接近翻倍增长
地理格局巨变: 中国模型下载量已超过美国（占 41%）；美国 + 西欧历史上靠大厂主导，中国靠发布量和采用率双领先
NVIDIA 是 Big Tech 中贡献最强的公司（Kernel Hub 上线，支持 NVIDIA/AMD 自研芯片模型）
独立开发者份额从 17% 升至 39%，个人量化/适配/分发模型已成重要中介力量
头部效应持续：Top 200 模型占 49.6% 下载量，但专用社区（小语种、垂直领域）持续活跃
可信度: 高 — Hugging Face 官方数据分析博客，引用 MIT/Linux Foundation 研究
后续行动: 可纳入开源 AI 生态年度报告素材；核验中国模型下载数据（Dataprovenance Initiative 原始论文）

3. LLM 推理引擎三分天下 (2026-06) — vLLM / SGLang / TensorRT-LLM

来源: https://www.yottalabs.ai/post/best-llm-inference-engines-in-2026-vllm-tensorrt-llm-tgi-and-sglang-compared + https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
核心观点:
vLLM = 生产默认，PagedAttention 解决 GPU 显存碎片化，MRV2 在 GB200 上 56% 吞吐提升
SGLang = 高并发调度 + 结构化生成 API，TTFT 比 vLLM 快 12.6%（H200 实测），支持前沿稀疏注意力
TensorRT-LLM = NVIDIA 官方，最大化硬件利用率，但 1-2 周编译时间 + 单一供应商锁定
Modular MAX = Mojo kernels 图编译新势力，在 dense 模型高并发场景超越 vLLM（值得关注）
llama.cpp / LMDeploy TurboMind = 轻量级备选，适合小模型
可信度: 中高 — 多方实测数据（Spheron/YottaLabs），有具体 Benchmark 数字
后续行动: 建议补充 Modular MAX vs vLLM 详细对比；跟进 MRV2 在 H100 上的实测数据

4. Vector DB 2026 选型框架 — pgvector / Qdrant / Milvus / Pinecone / Weaviate

来源: https://www.digitalapplied.com/blog/vector-databases-for-ai-agents-pinecone-qdrant-2026 + https://www.kunalganglani.com/blog/milvus-vs-qdrant
核心观点:
pgvector: 中位数案例最优（50M 向量 QPS 赢 Qdrant 10x），免费、Postgres 生态，水平扩展需独立 DB
Qdrant: 默认首选，Rust 实现，单 binary 起步 + 集群扩展，过滤搜索强
Milvus: 数亿~十亿向量、K8s 原生分布式、大规模 ML 平台集成场景
Pinecone: 企业托管，绕过运维但贵（$0.10/hr/node）
Weaviate: 混合搜索（vector + keyword）最强，内置向量化模块
选型第一原则：先按数据平台选，再按 Benchmark 决胜负
可信度: 中高 — 100+ 企业部署经验，有 VectorDBBench 引用
后续行动: 建议建立 Vector DB 选型决策树文档

5. Kubernetes v1.36 (2026) — AI 原生平台演进

来源: https://openeuler.csdn.net/6a19431c10ee7a33f2764fdf.html (CSDN/openEuler)
核心观点:
DRA (Dynamic Resource Allocation) GA: AI 算力调度新标准，GPU 资源动态分配
User Namespaces GA: 容器安全终极防线
PodGroup API: 调度状态与工作负载定义解耦，支持分布式训练 gang scheduling（PyTorch distributed）
大模型推理冷启动 30 秒优化实战（原创案例）
etcd + API Server 深度调优
可信度: 中 — CSDN 技术博客，有 YAML 示例代码，需核验 K8s v1.36 官方 Release Notes
后续行动: 对照 K8s v1.36 CHANGELOG 核验 DRA/PodGroup GA 状态

6. MLOps 2026 规模数据

来源: https://kernshell.com/best-practices-for-scalable-machine-learning-deployment + https://medium.com/codex/mlops-in-2026-from-mlflow-to-llmops-the-complete-guide-to-shipping-ai-in-production-0024955b70c4
核心观点:
MLOps 市场 2026 年达 $43.9 亿，预计 2034 年达 $899 亿（CAGR 45.8%）
55% 企业将缺乏 MLOps 实践列为 ML 部署主要障碍（45 篇同行评审论文系统综述）
Docker = 交付单位，Kubernetes = 运行系统；两者混淆导致"单点 docker run 无高可用"困境
K8s 已从容器编排器演化为 "Agentic Operating System"：代理式 AI 的核心基础设施
可信度: 中 — 有市场数据来源（Fortune Business Insights），同行评审引用
后续行动: 建议核实 Fortune Business Insights 原始报告数据

7. iThome 2026 CIO/CISO 大调查（台湾企业 AI 采用）

来源: https://www.ithome.com.tw/news/175863
核心观点:
RAG 架构采用率 26% → 35%（+9pp）
代理式 AI 采用率 17% → 32%（近乎翻倍）
开源 LLM 部署意愿：26% 企业想自建（几乎每四家一家）
GAI 领先企业（top 57%）RAG 超 60%、代理式 AI 50%、开源 LLM 46%
AI 原生技术采用率 2026 年正式超越传统 IT 现代化技术（云原生 K8s/微服务停滞）
DevSecOps 从 9% → 16%（+7pp）
可信度: 中 — iThome 台湾企业级调查样本，有具体数字但样本规模未披露
后续行动: 可纳入两岸 AI 落地对比研究素材

8. OWASP Top 10 Agents & AI 漏洞速查表 (2026)

来源: https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents (Substack by Alex Ewerlöf)
核心观点:
覆盖 LLM01-LLM10 + ASI01-ASI10（代理专项）
代理式 AI 因 loop 特性 + 低监督期望，具有极高财务风险
核心缓解：语义防火墙（隔离二级模型评估输入/输出）+ 最小权限原则（工具权限严格管控）
可信度: 中高 — OWASP 官方标准，Alex Ewerlöf 为知名 AI 安全工程师
后续行动: 可纳入 AI 安全专题页

🟡 补充条目（低优先级）

条目	来源	摘要	价值
Dify — 生产就绪 Agentic Workflow 平台	ByteByteGo Substack (blog.bytebytego.com)	低代码/无代码工作流、RAG pipeline、多模型支持、本地+云部署	平台选型参考
awesome-ai-agents-2026 (1.1k ⭐)	github.com/caramaschiHG	340 资源 / 20 分类，月更，质量覆盖高	行业清单，可引用
ByteByteGo Top AI GitHub Repos	blog.bytebytego.com	LangChain/OpenHands/MetaGPT/OpenCode/AutoGen/Codex/CrewAI 排序	入门级概览
Inside vLLM: Anatomy of a HSS Inference System	LinkedIn 引述 AleksaGordic	LinkedIn 帖子高度评价，原始博客需进一步检索	可补充 vLLM 架构精读
NVIDIA NIM — 推理引擎容器化打包	Spheron blog	TRT-LLM + 模型权重 + API 单容器打包，降低部署门槛	工程参考
Modular MAX — Mojo 新推理引擎	Spheron blog	图编译 Mojo kernels，dense 模型高并发场景超越 vLLM	值得关注，跟进中

分类标签

AI-Engineering LLM-Inference Vector-DB MLOps Kubernetes GitHub-Trending HuggingFace Security Enterprise-AI-Adoption

建议写入路径

/shared/research-kb/inbox/jay/2026-06-16-1335-github-trending-hf-inference-vector-mlops.md

精读 / 审稿 / 主题页更新建议

优先级	行动	目标
🔴 精读	HF State of OS Spring 2026 完整博客	开源 AI 生态年度报告素材，中国模型崛起核心数据
🔴 精读	SGLang v0.5.12 release notes + NSA Benchmark	跟进 DeepSeek V3.2 稀疏注意力最新进展
🟡 审稿	K8s v1.36 DRA GA / PodGroup — 对照 CHANGELOG 核验	确保 CSDN 内容准确
🟡 跟进	Modular MAX Mojo — 是否有公开 Benchmark 数据	新兴推理引擎动向
🟢 归档	OWASP Agents ASI01-ASI10 — 补充 AI 安全专题	安全标签体系建设
🟢 归档	iThome 台湾调查 — 两岸 AI 落地对比素材	区域化研究

去重提示

本日第 2 轮简报（13:35）；已检查 inbox： - 2026-06-16-1335-... 新建，不重复 - 2026-06-16-noon-github-trending-inference-kvcache.md — 上轮 12:00 简报，内容无重叠 - 2026-06-16-noon-engineering-filter.md — 工程过滤，无重叠 - 2026-06-16-csdn-highvalue-llm-rag-agent-mcp.md — CSDN MCP 相关，无重叠

Jay · 2026-06-16 13:35 · Asia/Shanghai