← 笔记
Jay 2026-06-26 10:50

知识库草稿 · Jay · 2026-06-26 上午工程筛选

主题

AI 工程二次筛选 · 推理引擎选型决策框架 · Agent Harness 工程实践 · GitHub 工程资源评估


一、候选条目(筛前 8 条)

来自今日已产出草稿 + 新检索候选,按工程价值排序。

# 条目 来源 工程信号 保留/丢弃 理由
1 vLLM vs SGLang 2026 生产决策框架 DevOpsBeast / LeetLLM / Spheron ⭐⭐⭐⭐⭐ ✅ 保留 明确的决策框架(workload shape → engine选择)、H100 benchmark数字、生产经验数据
2 OS-Level Policy Enforcement for Agent Harnesses arXiv 2606.25189 ⭐⭐⭐⭐ ✅ 保留 精确的harness安全边界定义;programmable enforcement机制;生产级安全设计
3 awesome-harness-engineering GitHub合集 GitHub ai-boost ⭐⭐⭐⭐ ✅ 保留(有条件) 收录了首个terminal-native coding agent harness工程论文(arXiv 2603.05344);需标注为资源索引而非原创研究
4 Langfuse v2 代码评审观测平台 GitHub Langfuse ⭐⭐⭐ ✅ 保留(有条件) langfuse近期commit中大量code eval相关PR(#13685, #13784);含真实bug fix经验;需去重(上次已收录langfuse)
5 Anthropic Skills + AWS Agent Toolkit GitHub Trending ⭐⭐⭐ ⚠️ 条件保留 官方工程实践;但Anthropic Skills偏向SDK介绍而非工程洞察;AWS Toolkit是新增MCP服务器收录
6 ai-boost/awesome-prompts (multi-agent orchestrator) GitHub ⭐⭐⭐ ⚠️ 丢弃 prompt engineering资源;属于指令模板而非工程实现;token数/跨agent协作细节缺失
7 vLLM vs TensorRT-LLM 2026 benchmark Lyceum Tech ⭐⭐⭐ ⚠️ 丢弃 EU主权云营销内容;benchmark数字无独立验证;生产参考价值低
8 awesome-ai-agents-2026 汇总列表 GitHub ⭐⭐ ❌ 丢弃 列表聚合;无工程细节;已有更具体的awesome-harness-engineering覆盖

二、高价值条目详细评估

✅ 保留 1:vLLM vs SGLang 2026 生产决策框架(综合 DevOpsBeast / LeetLLM / Spheron)

来源: - DevOpsBeast: https://devopsbeast.com/blog/vllm-vs-sglang-production-2026 - LeetLLM: https://leetllm.com/blog/llm-inference-engine-comparison-2026 - Spheron: https://www.spheron.network/blog/vllm-vs-sglang-2026

可信度:⭐⭐⭐⭐⭐(三方交叉验证,有具体数字和决策树)

核心工程内容

vLLM 仍领先的场景: - Speculative decoding:Eagle3 / EAGLE2 与 vLLM MRVAE 深度集成;SGLang speculative decoding 仍属实验性 - 多模态模型支持更广(H100/H200 生产案例更多) - 调试工具链成熟度高(Ray 生态 + Prometheus 指标完善度)

SGLang 已超越的场景: - Prefix-heavy RAG(>60% 请求共享系统提示或 RAG 文档):RadixAttention 实现 KV cache 复用,TTFT 降低 20-40% - 结构化 JSON 输出:grammar-cache 复用使同 Schema 重复请求 overhead 趋近于零 - 多 LoRA adapter 服务:单 base model + 多 adapter,生产验证案例丰富

关键决策树(5分钟版本)

Q1: 是否为 prefix-heavy RAG 场景(>60% 共享前缀)?
  → 是:优先 SGLang(RadixAttention TTFT 降低 20-40%)
  → 否:继续

Q2: 是否需要 speculative decoding?
  → 是:优先 vLLM(Eagle3 集成成熟度领先)
  → 否:继续

Q3: 是否为 unique-prompt 高并发场景?
  → 是:两者差距 <5%,选 operational simpler(vLLM)
  → 否:继续

Q4: 是否需要结构化 JSON schema 强制输出?
  → 是:SGLang grammar-cache 优势明显
  → 否:两者均可,按团队经验选型

H100 基准参考数字(来自 LeetLLM): - Llama 3.1 8B batch:SGLang +29% throughput vs vLLM(因 C++ native arch) - Llama 70B FP8:vLLM vs SGLang throughput 差距 <10%

工程行动项: - 生产选型应先回答"workload shape 是什么"而非"哪个 benchmark 更高" - Prefix-heavy RAG 场景(多用户共享同一系统提示或 RAG chunk):SGLang RadixAttention 优先级最高 - TensorRT-LLM 适合对原始 throughput 有极致追求但接受操作复杂度的团队

建议分类LLM-Inference vLLM SGLang Production-Deployment Benchmark 后续行动:作为团队推理引擎选型 checklist;可与今天 0820 CSDN vLLM 参数配置联合归档


✅ 保留 2:Programmable OS-Level Policy Enforcement for Agent Harnesses

来源:arXiv 2606.25189 | https://arxiv.org/html/2606.25189v1

可信度:⭐⭐⭐⭐(Systems 方向,harness 安全边界精确化)

核心工程内容: - 问题定义:AI agent harness(模型周围的软件层,负责维护 agent loop 和 session 状态、路由工具调用)目前缺乏 OS 级别的 policy enforcement 机制 - 方案:programmable policy enforcement,让 harness developer 可以定义细粒度权限策略,OS 层强制执行 - 关键概念:将"模型是否应该调用这个工具"的问题从 prompt 层下沉到 OS 权限层,是 security-by-design 在 agent 系统的具体实现 - 工程价值:这是 agentic 系统安全工程的前沿方向——从 LLM 原生护栏扩展到基础设施原生护栏

建议分类Agent-Harness Security Systems-Engineering 后续行动:关注该方向是否进入主流框架(LangGraph / AutoGen)实现;与 OWASP Top 10 Agents 交叉验证


✅ 条件保留 3:awesome-harness-engineering

来源https://github.com/ai-boost/awesome-harness-engineering

保留条件:作为工程资源索引收录,但标注非原创研究

值得注意的内容: - arXiv 2603.05344:Building AI Coding Agents for the Terminal——首个系统性 terminal-native coding agent harness 工程论文 - Eager-construction scaffolding(消除首步延迟和竞态条件) - 复合多模型架构(execution / reasoning / critique / vision 分离) - 5层 defense-in-depth 安全 - Schema-filtered planning subagents - 这篇论文的工程细节(scaffolding时序、多模型协作协议)值得深入 - bradAGI/awesome-cli-coding-agents:80+ terminal-native AI coding agents 目录,含 session managers、parallel runners、autonomous loop infrastructure、credential vaults

建议分类Agent-Harness Engineering-Resources Coding-Agents 后续行动:arXiv 2603.05344 值得精读并写入独立条目


✅ 条件保留 4:Langfuse v2 代码评审观测

来源https://github.com/langfuse/langfuse(近期 commit 分析)

工程信号: - #13685 feat(evals): add code-based eval — 新增代码执行评测功能 - #13784 feat(evals): add code eval web flow — 前端代码评测工作流 - 真实 bug fix 经验:dedupe window 时间变更(60s → 5min)导致测试未更新的调试过程 - PR 中真实 co-author:Claude Opus 4.6(1M context)

条件保留原因:上次已收录 langfuse 基础功能,本次 commit 层面增量信息有限(主要是 eval 功能增强)

建议分类LLM-Observability Code-Eval Production-Evidence 后续行动:如知识库有 eval/tracing 专题,可作为 langfuse v2 eval 能力更新条目


三、丢弃条目说明

丢弃条目 丢弃原因
ai-boost/awesome-prompts Prompt 模板集合,非工程实现;缺乏跨 agent 协作的 token 经济学和真实复现步骤
vLLM vs TensorRT-LLM benchmark(Lyceum) EU 主权云营销文;benchmark 数字无独立验证;同类内容(DevOpsBeast/LeetLLM)已有更高质量覆盖
awesome-ai-agents-2026(汇总列表) 列表聚合工作,无原创工程洞察;已有更具体的 awesome-harness-engineering 覆盖相同范围
Anthropic Skills(SDK 介绍级) 偏向 SDK 文档而非工程洞察;MCP 相关内容已在今天 0935 文件 Substack 条目中覆盖

四、Substack 线索(与已有条目交叉验证)

The AI Engineer(2026-06)AI Agents Stack 已在今天 0935 文件中完整覆盖(含六层架构 + MCP 安全数据)。本轮检索确认该内容同步发布于 O'Reilly Radar(https://www.oreilly.com/radar/the-ai-agents-stack-2026-edition),内容一致,无需重复归档。

Alex Ewero OWASP Top 10 Agents 同样已在 0935 文件覆盖,建议两者联合精读(Stack 框架 + Security checklist)。


五、去重参考

已读文件 去重说明
2026-06-26-0935 本批次 vLLM vs SGLang 对比内容为新维度(DevOpsBeast/LeetLLM 补充今天 0820 的 CSDN vLLM 参数细节);OS-Level Policy Enforcement、awesome-harness-engineering 与 0935 的 OWASP/KV Cache 条目无重复
2026-06-26-0820 CSDN vLLM/llama.cpp 文章覆盖参数配置和 CUDA 排障,与本批次推理引擎决策框架互补

建议写入路径

/shared/research-kb/inbox/jay/2026-06-26-1050-engineering-filter-inference-stack-agentic-harness.md

分类标签

AI工程 LLM-Inference vLLM SGLang Agent-Harness Security Production-Deployment Benchmark GitHub-Trending

精读/审稿优先级

  1. 🔴 vLLM vs SGLang 2026 决策框架(三方综合版)→ 团队推理引擎选型必备
  2. 🔴 arXiv 2603.05344(Terminal Coding Agent Harness 工程论文)→ 独立精读条目
  3. 🔴 arXiv 2606.25189(OS-Level Policy Enforcement)→ Agent Harness 安全工程前沿
  4. 🟡 awesome-harness-engineering 索引更新 → 资源库条目
  5. 🟢 Langfuse v2 eval 功能 → 已有 langfuse 条目补充(可选)