研究简报 · Jay · 2026-06-16 13:35
主题
GitHub Trending · Hugging Face Trending · LLM 推理引擎 · Vector DB · MLOps 部署 · CSDN 高价值
检索范围
GitHub Trending (ossinsight.io)、Hugging Face Trending Papers、HF State of OS Spring 2026 博客、vLLM/SGLang GitHub README、Spheron/YottaLabs 推理引擎对比文章、Vector DB 2026 对比文章、Kubernetes 2026 云原生 MLOps、iThome CIO 调查 (台湾)、CSDN 高价值文章、OWASP AI/Agent 安全 Substack。
候选条目
🔴 高价值条目
1. SGLang v0.5.12.post1 (2026-05-26) — 28.9k ⭐ / 6.5k forks
- 来源: https://github.com/sgl-project/sglang
- 核心观点: Apache-2.0 高性能 LLM 服务框架,2026 年已支持 GPT-OSS 模型 day-0 上线,集成 TRT-LLM DSA 稀疏注意力 kernel(DeepSeek V3.2,Blackwell 3x-5x 加速),新增
--nsa-prefill-backend trtllm --nsa-decode-backend trtllm组合支持 Qwen3.5、Kimi-K2.5、GLM-5、MiniMax 2.5。 - 可信度: 高 — GitHub 官方数据,1,595 contributors,最新版本 2026-05-26
- 后续行动: 跟进 SGLang v0.5.x release notes,核验 NSA 在 DeepSeek V3.2 上的 Benchmark 数据
2. Hugging Face State of Open Source Spring 2026 — 13M 用户 / 2M+ 模型
- 来源: https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026
- 核心观点:
- HF 平台规模:13M 用户、2M+ 公开模型、500K+ 数据集,接近翻倍增长
- 地理格局巨变: 中国模型下载量已超过美国(占 41%);美国 + 西欧历史上靠大厂主导,中国靠发布量和采用率双领先
- NVIDIA 是 Big Tech 中贡献最强的公司(Kernel Hub 上线,支持 NVIDIA/AMD 自研芯片模型)
- 独立开发者份额从 17% 升至 39%,个人量化/适配/分发模型已成重要中介力量
- 头部效应持续:Top 200 模型占 49.6% 下载量,但专用社区(小语种、垂直领域)持续活跃
- 可信度: 高 — Hugging Face 官方数据分析博客,引用 MIT/Linux Foundation 研究
- 后续行动: 可纳入开源 AI 生态年度报告素材;核验中国模型下载数据(Dataprovenance Initiative 原始论文)
3. LLM 推理引擎三分天下 (2026-06) — vLLM / SGLang / TensorRT-LLM
- 来源: https://www.yottalabs.ai/post/best-llm-inference-engines-in-2026-vllm-tensorrt-llm-tgi-and-sglang-compared + https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
- 核心观点:
- vLLM = 生产默认,PagedAttention 解决 GPU 显存碎片化,MRV2 在 GB200 上 56% 吞吐提升
- SGLang = 高并发调度 + 结构化生成 API,TTFT 比 vLLM 快 12.6%(H200 实测),支持前沿稀疏注意力
- TensorRT-LLM = NVIDIA 官方,最大化硬件利用率,但 1-2 周编译时间 + 单一供应商锁定
- Modular MAX = Mojo kernels 图编译新势力,在 dense 模型高并发场景超越 vLLM(值得关注)
- llama.cpp / LMDeploy TurboMind = 轻量级备选,适合小模型
- 可信度: 中高 — 多方实测数据(Spheron/YottaLabs),有具体 Benchmark 数字
- 后续行动: 建议补充 Modular MAX vs vLLM 详细对比;跟进 MRV2 在 H100 上的实测数据
4. Vector DB 2026 选型框架 — pgvector / Qdrant / Milvus / Pinecone / Weaviate
- 来源: https://www.digitalapplied.com/blog/vector-databases-for-ai-agents-pinecone-qdrant-2026 + https://www.kunalganglani.com/blog/milvus-vs-qdrant
- 核心观点:
- pgvector: 中位数案例最优(50M 向量 QPS 赢 Qdrant 10x),免费、Postgres 生态,水平扩展需独立 DB
- Qdrant: 默认首选,Rust 实现,单 binary 起步 + 集群扩展,过滤搜索强
- Milvus: 数亿~十亿向量、K8s 原生分布式、大规模 ML 平台集成场景
- Pinecone: 企业托管,绕过运维但贵($0.10/hr/node)
- Weaviate: 混合搜索(vector + keyword)最强,内置向量化模块
- 选型第一原则:先按数据平台选,再按 Benchmark 决胜负
- 可信度: 中高 — 100+ 企业部署经验,有 VectorDBBench 引用
- 后续行动: 建议建立 Vector DB 选型决策树文档
5. Kubernetes v1.36 (2026) — AI 原生平台演进
- 来源: https://openeuler.csdn.net/6a19431c10ee7a33f2764fdf.html (CSDN/openEuler)
- 核心观点:
- DRA (Dynamic Resource Allocation) GA: AI 算力调度新标准,GPU 资源动态分配
- User Namespaces GA: 容器安全终极防线
- PodGroup API: 调度状态与工作负载定义解耦,支持分布式训练 gang scheduling(PyTorch distributed)
- 大模型推理冷启动 30 秒优化实战(原创案例)
- etcd + API Server 深度调优
- 可信度: 中 — CSDN 技术博客,有 YAML 示例代码,需核验 K8s v1.36 官方 Release Notes
- 后续行动: 对照 K8s v1.36 CHANGELOG 核验 DRA/PodGroup GA 状态
6. MLOps 2026 规模数据
- 来源: https://kernshell.com/best-practices-for-scalable-machine-learning-deployment + https://medium.com/codex/mlops-in-2026-from-mlflow-to-llmops-the-complete-guide-to-shipping-ai-in-production-0024955b70c4
- 核心观点:
- MLOps 市场 2026 年达 $43.9 亿,预计 2034 年达 $899 亿(CAGR 45.8%)
- 55% 企业将缺乏 MLOps 实践列为 ML 部署主要障碍(45 篇同行评审论文系统综述)
- Docker = 交付单位,Kubernetes = 运行系统;两者混淆导致"单点 docker run 无高可用"困境
- K8s 已从容器编排器演化为 "Agentic Operating System":代理式 AI 的核心基础设施
- 可信度: 中 — 有市场数据来源(Fortune Business Insights),同行评审引用
- 后续行动: 建议核实 Fortune Business Insights 原始报告数据
7. iThome 2026 CIO/CISO 大调查(台湾企业 AI 采用)
- 来源: https://www.ithome.com.tw/news/175863
- 核心观点:
- RAG 架构采用率 26% → 35%(+9pp)
- 代理式 AI 采用率 17% → 32%(近乎翻倍)
- 开源 LLM 部署意愿:26% 企业想自建(几乎每四家一家)
- GAI 领先企业(top 57%)RAG 超 60%、代理式 AI 50%、开源 LLM 46%
- AI 原生技术采用率 2026 年正式超越传统 IT 现代化技术(云原生 K8s/微服务停滞)
- DevSecOps 从 9% → 16%(+7pp)
- 可信度: 中 — iThome 台湾企业级调查样本,有具体数字但样本规模未披露
- 后续行动: 可纳入两岸 AI 落地对比研究素材
8. OWASP Top 10 Agents & AI 漏洞速查表 (2026)
- 来源: https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents (Substack by Alex Ewerlöf)
- 核心观点:
- 覆盖 LLM01-LLM10 + ASI01-ASI10(代理专项)
- 代理式 AI 因 loop 特性 + 低监督期望,具有极高财务风险
- 核心缓解:语义防火墙(隔离二级模型评估输入/输出)+ 最小权限原则(工具权限严格管控)
- 可信度: 中高 — OWASP 官方标准,Alex Ewerlöf 为知名 AI 安全工程师
- 后续行动: 可纳入 AI 安全专题页
🟡 补充条目(低优先级)
| 条目 | 来源 | 摘要 | 价值 |
|---|---|---|---|
| Dify — 生产就绪 Agentic Workflow 平台 | ByteByteGo Substack (blog.bytebytego.com) | 低代码/无代码工作流、RAG pipeline、多模型支持、本地+云部署 | 平台选型参考 |
| awesome-ai-agents-2026 (1.1k ⭐) | github.com/caramaschiHG | 340 资源 / 20 分类,月更,质量覆盖高 | 行业清单,可引用 |
| ByteByteGo Top AI GitHub Repos | blog.bytebytego.com | LangChain/OpenHands/MetaGPT/OpenCode/AutoGen/Codex/CrewAI 排序 | 入门级概览 |
| Inside vLLM: Anatomy of a HSS Inference System | LinkedIn 引述 AleksaGordic | LinkedIn 帖子高度评价,原始博客需进一步检索 | 可补充 vLLM 架构精读 |
| NVIDIA NIM — 推理引擎容器化打包 | Spheron blog | TRT-LLM + 模型权重 + API 单容器打包,降低部署门槛 | 工程参考 |
| Modular MAX — Mojo 新推理引擎 | Spheron blog | 图编译 Mojo kernels,dense 模型高并发场景超越 vLLM | 值得关注,跟进中 |
分类标签
AI-Engineering LLM-Inference Vector-DB MLOps Kubernetes GitHub-Trending HuggingFace Security Enterprise-AI-Adoption
建议写入路径
/shared/research-kb/inbox/jay/2026-06-16-1335-github-trending-hf-inference-vector-mlops.md
精读 / 审稿 / 主题页更新建议
| 优先级 | 行动 | 目标 |
|---|---|---|
| 🔴 精读 | HF State of OS Spring 2026 完整博客 | 开源 AI 生态年度报告素材,中国模型崛起核心数据 |
| 🔴 精读 | SGLang v0.5.12 release notes + NSA Benchmark | 跟进 DeepSeek V3.2 稀疏注意力最新进展 |
| 🟡 审稿 | K8s v1.36 DRA GA / PodGroup — 对照 CHANGELOG 核验 | 确保 CSDN 内容准确 |
| 🟡 跟进 | Modular MAX Mojo — 是否有公开 Benchmark 数据 | 新兴推理引擎动向 |
| 🟢 归档 | OWASP Agents ASI01-ASI10 — 补充 AI 安全专题 | 安全标签体系建设 |
| 🟢 归档 | iThome 台湾调查 — 两岸 AI 落地对比素材 | 区域化研究 |
去重提示
本日第 2 轮简报(13:35);已检查 inbox:
- 2026-06-16-1335-... 新建,不重复
- 2026-06-16-noon-github-trending-inference-kvcache.md — 上轮 12:00 简报,内容无重叠
- 2026-06-16-noon-engineering-filter.md — 工程过滤,无重叠
- 2026-06-16-csdn-highvalue-llm-rag-agent-mcp.md — CSDN MCP 相关,无重叠
Jay · 2026-06-16 13:35 · Asia/Shanghai