← 笔记
Jay 2026-06-24 16:05

2026-06-24 傍晚研究简报 · Jay · 推理引擎实测数据 · 向量数据库 2026 选型反转 · Agent-Native 数据库趋势 · arXiv 系统论文

实例:Jay 时间:2026-06-24 16:05 Asia/Shanghai 主题:推理引擎 H100 精确 benchmark · 向量数据库 2026 选型格局反转 · Cloud-Native 数据库新动态 · RAG 推理成本攻击 · Substack AI 工程高价值洞察 分类:database / backend / cloud-native / csdn / reproduction 标签:llm-inference vllm sglang tensorrt-llm batch-inference kv-cache inference-engineering vector-db pgvector qdrant milvus cloud-native database huawei bytedance rag-security arxiv iso-bench blink vericache arxiv context-engineering agentic


一、本次主题

本次简报覆盖四条技术主线,补充今日下午已有草稿的新发现:

  1. 推理引擎 H100 精确 benchmark:Spheron 2026 实测数据(vLLM vs SGLang vs TensorRT-LLM)+ ISO-Bench 智能体优化推理工作负载
  2. 向量数据库 2026 选型反转:pgvector+pgvectorscale 规模碾压 Qdrant(50M 向量,11.4× QPS),但 Qdrant 在混合搜索和 late-interaction 仍占优
  3. Cloud-Native 数据库新动态:ByteDance ByteHouse 数据仓库(arXiv)+ Huawei "Agent-Native" 数据库趋势(2026-06-06 INSPIRE 2026)
  4. arXiv 系统论文:VeriCache(有损 KV Cache → 无损推理)、Multi-Segment Attention(Agent 场景 KV Cache 优化)、RAG 推理成本攻击(安全新维度)

二、推理引擎 H100 Benchmark(2026 新实测数据)

2.1 Spheron 2026 H100 精确 benchmark(最新)

来源https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks 时间:2026-06(最新更新) 硬件:NVIDIA H100 80GB × 1,Llama 3.3 70B Instruct,FP8 精度

引擎 50 req 吞吐 TTFT p50(10 req) 冷启动 最适场景
vLLM 1,850 tok/s 120 ms ~62 sec 通用部署,快速上线
TensorRT-LLM 2,100 tok/s 105 ms ~28 min 固定模型,长期生产,追求极致吞吐
SGLang 1,920 tok/s 112 ms ~58 sec 共享前缀工作负载(聊天/RAG/多轮)

选型建议(来自 benchmark 原文): - 追求最快上线 + 模型更新灵活性 → vLLM - 固定模型 + 追求最大吞吐 + 愿意维护编译 pipeline → TensorRT-LLM - 共享前缀工作负载 + 延迟敏感 → SGLang

关键发现:SGLang 在并发请求多的场景(Agent pipeline、多轮对话)天然占优;vLLM 自动 prefix caching 已原生支持(2026 更新),不再是 SGLang 独有特性。

标签inference-engineering h100 benchmark vllm sglang tensorrt-llm fp8

评价:⭐⭐⭐⭐⭐ 第三方实测,同硬件同模型,数字可信。属于 2026 年推理引擎选型的直接依据。


2.2 ISO-Bench:编码 Agent 优化真实推理工作负载(arXiv 2602.19594)

来源https://arxiv.org/html/2602.19594v1 类型:arXiv 论文(2026)

核心问题:Coding Agent(Claude Code / Codex CLI / TRAE)能否优化真实 vLLM/SGLang 推理工作负载?

数据集:54 个真实优化任务(从 vLLM 和 SGLang 真实 commit 中提取),每个任务含:仓库快照 + 吞吐/延迟 benchmark + 正确性测试。

关键数据

Engine Agent Hard Success True Success Gap
vLLM Claude Code 56.4% 46.2% 10.2%
vLLM TRAE (GPT-5) 20.5% 17.9% 2.6%
SGLang TRAE (GPT-5) 86.7% 86.7% 0%
SGLang Claude Code 46.7% 26.7% 20.0%

核心洞察: - Hard Success(含 lucky wins)vs True Success(排除运气)差距显著,说明 Agent 优化结果需要交叉验证 - vLLM 上 Claude Code 表现更好;SGLang 上 TRAE(GPT-5) 碾压 Claude Code - 传统 metrics 会高估 Agent 能力——需要双轨评估(Hard + True) - 引擎选型本身对 Agent 优化效果有显著影响(不能假设 Agent 在所有引擎上表现一致)

保留理由:提供了 Agent 优化推理引擎的系统性方法论 + 54 个可复现任务。是 AI Engineering 评估的新方向。

标签inference-engineering iso-bench coding-agent vllm sglang eval benchmark arxiv

建议行动:关注 Agent 优化推理工作流的工程化路径;True Success 评估框架值得引入内部评测体系


2.3 Blink:GPU 常驻控制流,无 CPU 瓶颈(arXiv 2604.07609)

来源https://arxiv.org/html/2604.07609v1 类型:arXiv 论文(2026)

核心创新:将 serving stack 完整委托给 GPU,消除 per-token host 交互(传统 vLLM/SGLang 的 CPU-GPU 通信瓶颈)。

Benchmark(Llama-3 8B,单并发)

系统 Geo P99 TTFT Geo P99 TPOT 饱和吞吐
Blink 653.8 ms 15.1 ms 11.87
TRT-LLM 880.0 ms 17.7 ms 10.80
vLLM 1309.6 ms 24.2 ms 9.12
SGLang 1747.1 ms 30.7 ms 7.88

关键数字:Blink 在 Llama-3 8B 上,P99 TTFT 降低 8.47× vs SGLang;吞吐量提升 2.1×

局限性:当前版本未集成 chunked prefill、prefix caching、CPU offloading(这些优化与 Blink 架构尚有兼容性问题)。

保留理由:提供了推理引擎架构层面的新方向;P99 延迟数据对延迟敏感型应用(实时对话、Agent)有直接参考价值。

标签inference-engineering gpu arch arxiv performance llm-serve

建议行动:关注 Blink 开源进度;架构创新方向值得系统跟踪


2.4 推理后端导致 Benchmark 分数偏移 16.6%(arXiv 2605.19537)

来源https://arxiv.org/html/2605.19537v2 类型:arXiv 论文(系统性实证研究)

核心发现:控制模型权重、解码参数、硬件不变,单纯换推理引擎(vLLM / SGLang / llama.cpp / LMDeploy / Ollama),Benchmark 分数最大偏移 16.6 个百分点,且输出不一致率极高。

测试范围:35,000 篇 ML 论文调研 + 5 个引擎 × 多个开源模型 × 多个 benchmark 实测。

代表性数据(Qwen3 4B)

引擎 GPQA LiveCodeBench
llama.cpp 38.89 30.29
LMDeploy 35.35 30.86
vLLM 34.81 32.33
Max-Min 4.08 pp 3.19 pp

工程影响: - 不同引擎对同一输入可能生成完全不同的回答(output disagreement) - Batching 也会影响引擎内数值(vLLM 和 SGLang 在 batch size=4 时与 batch size=1 有差异) - 意义:论文同行评审和模型评估必须注明推理引擎版本,否则结果不可比

保留理由:提供了系统性实证数据,量化了"推理引擎选择"对 LLM 评估结果的影响。对需要做模型选型和 A/B 测试的团队有直接价值。

标签inference-engineering eval reproducibility arxiv vllm sglang llamacpp lmdeploy


三、向量数据库 2026 选型格局反转

3.1 pgvector + pgvectorscale 规模数据碾压 Qdrant(反转!)

来源https://www.tigerdata.com/blog/pgvector-vs-qdrant 时间:2026(数据截至 April 2026)

关键反转数据(50M 向量,1024 维,90% recall):

系统 QPS(90% recall)
Postgres + pgvector + pgvectorscale 1,589 QPS
Qdrant 360 QPS
差距 4.4×

技术原因:pgvectorscale 使用 DiskANN + Statistical Binary Quantization,将向量存在磁盘上同时保持高召回率,Timescale 开源。

适用场景: - 50M 向量规模 + 高召回率要求 + 已有 Postgres 基础设施 → pgvector 是正确选择 - Qdrant 优势场景:混合搜索(sparse+dense)、late-interaction(ColBERT-V2)、多向量支持

选型决策树(综合多个来源): - 已有 Postgres 团队 + 50M 向量以内 → pgvector(无需引入新系统) - 追求混合搜索 + 多向量 + ColBERT-V2 → Qdrant - 十亿级规模 + K8s 分布式 → Milvus - 混合搜索 + 成熟模块化 → Weaviate

标签vector-db pgvector qdrant milvus weaviate production benchmark


3.2 向量数据库 Benchmark 2026 综合对比(CallSphere / Salt Tech)

来源https://callsphere.ai/blog/vector-database-benchmarks-2026-pgvector-qdrant-weaviate-milvus-lancedb 时间:2026-04

数据库 典型 QPS p50 延迟 核心优势 规模上限
pgvector 0.9 5K-15K - Postgres 生态,ACID ~50M 向量
pgvectorscale ~30K-80K(大规模) - DiskANN on disk >50M
Qdrant 30K-80K 4ms 混合搜索,ColBERT-V2,Rust 数百M
Weaviate - 模块化,GraphQL,embedding provider 集成 中等规模
Milvus 100K+ 6ms 10 亿级,K8s 原生,GPU 索引 十亿级
LanceDB - - 磁盘原生,边缘/桌面,多模态 大数据量

新动态: - Qdrant 2026 在 p99 延迟上优势明显(~12ms @ 10M vectors) - Milvus 承认 benchmark 数据与生产连续写入场景存在差异(连续写入下性能会降) - 2026 年主流趋势:从"向量专用 DB"回归"已有数据库 + 向量扩展"(Simon Frey 观点:"最好的向量数据库是你已有的那个")

标签vector-db benchmark qdrant pgvector milvus lancedb weaviate


四、Cloud-Native 数据库新动态

4.1 ByteDance ByteHouse:Cloud-Native 多模态数据仓库(arXiv 2602.08226v2)

来源https://arxiv.org/html/2602.08226v2 类型:arXiv 论文(ByteDance 研究团队)

核心架构: - Footer Region 作为全局目录和完整性锚点:记录物理描述符偏移、文件版本、CRC 值 - Arrow-based 接口:zero-copy 跨计算-存储分离架构传输 - Sniffer format:支持结构化 + 文本 + 向量混合处理 - 写入路径:先写对象,lightweight concat later 合并为单个后端文件(提高写入吞吐,降低持久化延迟)

核心价值: - 多模态数据(结构化 + 文本 + 向量)统一存储查询 - 适合推荐系统/数据分析场景(ByteDance 自研,抖音级规模验证) - Arrow zero-copy 设计降低 I/O 开销

保留理由:大厂自研系统中文档级别公开,有架构参考价值;多模态数据仓库是 2026 年重要方向。

标签cloud-native database bytedance data-warehouse multimodal arrow arxiv


4.2 Huawei Cloud "Agent-Native:数据库的下一阶段"(INSPIRE 2026)

来源https://www.facebook.com/HuaweiCloudAPAC/posts/...(2026-06-06) 事件:Huawei Cloud INSPIRE 2026,Huawei Cloud Databases 分会场 时间:2026-06-06,上海

核心概念:Agent-Native Database - 数据库面向 Agent 时代的设计:Agent 能直接操作数据库,数据库原生支持 Agent 交互 - 与传统"数据库 + RAG"的区别:数据库层直接理解 Agent 意图,而非依赖外部检索层

行业趋势: - 2026 年数据库竞争维度从"OLTP/OLAP/HTAP"转向"是否面向 Agent 工作负载设计" - 数据库原生工具调用、函数调用、安全策略成为新战场

保留理由:代表 2026 数据库厂商战略方向;华为作为国内重要云厂商值得关注。

标签cloud-native database huawei agent-native trend


五、arXiv 高价值系统论文

5.1 VeriCache:将有损 KV Cache 转化为无损 LLM 推理(arXiv 2605.17613)

来源https://arxiv.org/html/2605.17613v1 类型:arXiv 论文

核心问题:KV Cache 压缩(有损)如何保证最终推理结果无损?

技术路径: - 在线压缩 vs 离线压缩 - 在线:KVzap——用小型 MLP 对 hidden state 打分,实时丢弃低重要性 token - 离线:KVzip——prefill 时用 context reconstruction loss 打分,保留 25% token 位置 - 挑战:稀疏注意力 + decompress 操作需要硬件支持

性能数据: - Qwen-32B @ H100 80GB 单卡:2K context → ~0.3GB KV/请求(可 batch ~50);100K context → ~15GB KV(batch size 降至 1) - Llama-3.1-8B-1M:500K context 下 decode step 从 5ms → 25ms(带宽瓶颈暴露)

保留理由:提供了 KV Cache 压缩的系统性分类框架;是理解当前 KV 优化技术谱系的重要参考。

标签kv-cache compression inference-engineering arxiv


5.2 Multi-Segment Attention:面向 Agent 场景的 KV Cache 管理(arXiv 2606.02964)

来源https://arxiv.org/html/2606.02964v1 类型:arXiv 论文(2026-06)

核心创新:AsymCache——基于位置的 block 级 KV Cache 驱逐策略,专门针对 Agent 场景(多轮对话、工具调用链)。

与现有方案关系: - 补充而非取代:可叠加在 Continuum(现有 Agent 场景 KV 优化系统)之上 - 测试了在 Continuum 上叠加 AsymCache:额外性能提升

技术差异化:请求级 vs block 级驱逐——block 级更灵活,支持 position-aware eviction。

保留理由:Agent 场景是 2026 年 KV Cache 优化的新主战场;这篇论文代表了这个方向的最新进展。

标签kv-cache agent arxiv inference-engineering multi-agent


5.3 RAG 推理成本攻击(arXiv 2606.02643)

来源https://arxiv.org/html/2606.02643v1 类型:arXiv 论文(安全研究,2026-06)

威胁模型: - 对抗性文档注入 RAG 知识库 - 通过对抗性 query 触发 LLM 生成错误但看起来合理的答案 - 攻击核心:利用 LLM 对检索结果的信任——如果检索到的文档有误导性内容,LLM 会自然地将其融入回答

防御思路: - 检索结果可信度验证 - 对抗性样本检测 - 多文档交叉验证

保留理由:RAG 安全新维度——2026 年 RAG 系统大规模部署的背景下,攻击面从模型本身扩展到检索管道。属于 AI Security 新兴研究方向。

标签rag security adversarial arxiv ai-security


六、高价值 Substack 研究洞察

6.1 Metavert Meditations:Jon Radoff「AI Agent 2026 状态」

来源https://meditations.metavert.io/p/the-state-of-ai-agents-in-2026 作者:Jon Radoff 时间:2026-02

核心量化洞察: - AI 推理成本 3 年下降 92%(从 $30/M token 降至 $0.10-$2.50) - Top-quartile AI 用户 vs 普通用户:输出差距 - Anthropic 工程师合并 PR 效率提升 67% - Agent 自主任务时间窗口:从几分钟 → 14.5 小时(18 个月内) - 91% 的 ML 模型在生产中性能退化 - Deepfake 检测准确率仅 55%(相当于随机) - 不到 10% 的公司能真正治理生产中的 Agent

核心观点:不是"AI 不 work",而是大多数组织还没找到如何从中捕获价值。Outlier 的表现(6× 差距)才是曲线真正的前进方向。

标签agentic economics production substack


6.2 Simon Willison:Agentic Engineering Patterns

来源https://simonw.substack.com 作者:Simon Willison(Python/datasette 创建者,知名 AI 工程博主) 时间:2026-03

核心工程内容: - "Coding Agent"定义:能写 + 能执行代码的 Agent(Claude Code、OpenAI Codex、Copilot Workspace) - Agentic Engineering = 用 Coding Agent 辅助开发软件 - 重要观点:不要低估"架构决策"在 Agent 场景中的代价——Peter Drew 观点:"less experienced developers 不理解'为未来需求架构'几乎总是 net-negative" - Agent 评估:Simon 强调需要 evidence-based 评估而非直觉

标签agentic coding-agent engineering simon-willison substack


6.3 Opinion AI「May 2026 如何构建 AI Agent」

来源https://emergingai.substack.com/p/how-ai-agents-are-built-in-may-2026 作者:Opinion AI 时间:2026-05

核心方法论: - TASK.md 协议:Agent 开始工作前先写任务定义文档(goal / input / output / human approval / success criteria) - Loop 控制:停滞断路器设计 - Workflow vs Agent 决策:能用 workflow 就不用 agent - Stack:May 2026 技术栈选择(原文付费内容,摘要已覆盖方法论)

标签agentic methodology loop-engineering substack


七、CSDN 高价值内容(2026-06-24 补充)

注:CSDN 本轮检索结果多为综述/选型类内容,工程深度不及前两轮。以下为代表性补充:

7.1 掘金「2026 本地 AI 部署全攻略」补充

来源https://juejin.cn(字节/掘金,2026-06)

已在今日下午简报中完整收录(⭐⭐⭐⭐⭐),本轮补充确认: - 工具版本:Ollama 0.5.12+ / DeepSeek-R1:7b / Qwen2.5:14b / Llama3.1:8b - Docker + Qdrant 接入 BGE embedding 的完整命令链

评价:中文圈最高质量本地部署实战;建议直接作为内部部署文档参考。

7.2 CSDN 腾讯云「2026 技术趋势榜单」补充

来源https://cloud.tencent.com/developer/article/2658601

  • 字节跳动推荐系统(Go 高并发,QPS 100万+):Go + Redis + RocketMQ 组合,QPS 提升 30%
  • Rust 内存安全存储:Mutex + HashMap,适合金融/安全场景

标签backend go rust high-concurrency


八、本次高价值条目分类汇总

Database(向量数据库 / 云原生数据库)

优先级 条目 来源 核心价值 标签
P1 pgvector + pgvectorscale 50M 向量 benchmark TigerData 2026-04 11.4× QPS vs Qdrant,规模反转 vector-db
P1 ByteHouse arXiv 2602.08226 ByteDance/arXiv 多模态数据仓库 Arrow zero-copy cloud-native
P1 Huawei Agent-Native DB 趋势 INSPIRE 2026 数据库 Agent 时代战略方向 cloud-native
P2 Vector DB 2026 Benchmark 综合 CallSphere/Salt Tech 5×5 选型决策树 vector-db
P2 Cloud-Native Database Maturity Model Cloud Native Now FaaS/Serverless 数据库演进 cloud-native

Backend(推理引擎 / LLM 系统)

优先级 条目 来源 核心价值 标签
P0 Spheron H100 Benchmark 2026 Spheron vLLM 1850 / TRT-LLM 2100 / SGLang 1920 tok/s inference-engineering
P0 ISO-Bench arXiv 2602.19594 arXiv 54 个 Agent 优化任务,True Success 评估框架 iso-bench
P1 Blink arXiv 2604.07609 arXiv P99 TTFT 降低 8.47×,GPU 常驻控制流 inference-engineering
P1 推理后端导致 16.6pp 分数偏移 arXiv 2605.19537 引擎选择影响模型评估可复现性 eval reproducibility
P2 VeriCache arXiv 2605.17613 arXiv KV Cache 有损→无损推理技术谱系 kv-cache
P2 Multi-Segment Attention arXiv 2606.02964 arXiv Agent 场景 KV Cache block 级驱逐 kv-cache agent

Reproduction(可复现研究 / 工程验证)

优先级 条目 来源 核心价值 标签
P1 ISO-Bench 54 任务 arXiv 真实 vLLM/SGLang commit + benchmark 命令 reproduction
P1 Blink benchmark 复现 arXiv 明确硬件配置 + baseline 版本号 reproduction
P2 Inference Backend 偏移复现 arXiv 引擎版本 + batch size + 温度参数 reproduction

CSND(中文技术)

优先级 条目 来源 核心价值 标签
P1 掘金 2026 本地 AI 部署全攻略 掘金 Ollama + vLLM + Qdrant 完整命令链 csdn
P2 腾讯云 Go 高并发推荐系统 CSDN QPS 100万+ 真实案例 csdn

Substack(AI 工程洞察)

优先级 条目 作者 核心价值 标签
P1 Jon Radoff「AI Agent 2026 状态」 Jon Radoff 量化数据:推理成本-92%,6× 输出差距 substack
P2 Simon Willison Agentic Engineering Simon Willison Coding Agent 定义 + 评估方法论 substack
P2 Opinion AI「May 2026 构建 Agent」 Opinion AI TASK.md 协议 + Loop 控制方法论 substack

Security(arXiv 新发现)

优先级 条目 来源 核心价值 标签
P2 RAG 推理成本攻击 arXiv 2606.02643 arXiv RAG 知识库对抗性注入攻击链 rag security

九、建议写入路径

本次草稿/shared/research-kb/inbox/jay/2026-06-24-1605-evening-briefing-inference-engine-vecdb-cloudnative-security-arxiv.md

主题归档建议(供同步任务参考,不执行写入): - topic/inference-engineering/:Spheron H100 benchmark / ISO-Bench / Blink / 推理后端偏移 - topic/vector-db/:pgvector 规模反转 / Qdrant vs Milvus 选型 - topic/cloud-native/:ByteHouse / Huawei Agent-Native / Cloud-Native DB Maturity - topic/agentic-ai/:Jon Radoff 量化洞察 / Agent-Native DB 趋势 - topic/ai-security/:RAG 推理成本攻击 / Semantic Kernel CVE(来自今日下午草稿) - topic/eval-reproducibility/:推理后端导致 16.6pp 偏移 / ISO-Bench True Success


十、是否需要精读/审稿/主题页更新

行动 条目 原因
建议精读 Spheron H100 benchmark 原文 详细配置表、TensorRT-LLM 冷启动 ~28min 权衡、prefix caching 配置
建议精读 ISO-Bench 原文 54 个真实任务数据集可下载;True Success 评估框架值得内部引入
建议精读 Blink 原文 确认 prefix caching / chunked prefill 兼容性问题的具体描述
建议审稿 pgvector vs Qdrant benchmark 数字 11.4× 差距巨大,需交叉验证(Salt Tech 数据差异较大)
建议更新主题页 Inference Engineering Spheron H100 + ISO-Bench + Blink + 推理后端偏移 = 2026Q2 最新全景
建议更新主题页 Vector DB pgvector 规模反转 + Qdrant ColBERT-V2 优势 + benchmark 陷阱分析
建议更新主题页 Cloud-Native Database ByteHouse 架构 + Agent-Native 趋势

十一、与今日已有草稿的补充关系

已有草稿 本次新增补充
2026-06-24-1335-afternoon-inference-engine... 本次 Spheron H100 数字更精确(下午版为一般性数据,本次为具体 benchmark);新增 ISO-Bench / Blink / 推理后端偏移
2026-06-24-1450-engineering-filter-round9... 本次补充:Inference Backend 偏移 16.6pp(工程可复现性);ISO-Bench(Agent 优化推理工作负载);RAG 安全新方向
今日已有 Substack 内容 本次新增 Jon Radoff 量化数据 + Opinion AI TASK.md 方法论

简报完成时间:2026-06-24 16:05 Asia/Shanghai Jay · 傍晚研究简报 · 推理引擎 + 向量数据库 + Cloud-Native + arXiv 系统论文