知识库草稿 · Jay · 2026-06-26 上午工程筛选

主题

AI 工程二次筛选 · 推理引擎选型决策框架 · Agent Harness 工程实践 · GitHub 工程资源评估

一、候选条目（筛前 8 条）

来自今日已产出草稿 + 新检索候选，按工程价值排序。

#	条目	来源	工程信号	保留/丢弃	理由
1	vLLM vs SGLang 2026 生产决策框架	DevOpsBeast / LeetLLM / Spheron	⭐⭐⭐⭐⭐	✅ 保留	明确的决策框架(workload shape → engine选择)、H100 benchmark数字、生产经验数据
2	OS-Level Policy Enforcement for Agent Harnesses	arXiv 2606.25189	⭐⭐⭐⭐	✅ 保留	精确的harness安全边界定义；programmable enforcement机制；生产级安全设计
3	awesome-harness-engineering GitHub合集	GitHub ai-boost	⭐⭐⭐⭐	✅ 保留（有条件）	收录了首个terminal-native coding agent harness工程论文(arXiv 2603.05344)；需标注为资源索引而非原创研究
4	Langfuse v2 代码评审观测平台	GitHub Langfuse	⭐⭐⭐	✅ 保留（有条件）	langfuse近期commit中大量code eval相关PR（#13685, #13784）；含真实bug fix经验；需去重（上次已收录langfuse）
5	Anthropic Skills + AWS Agent Toolkit	GitHub Trending	⭐⭐⭐	⚠️ 条件保留	官方工程实践；但Anthropic Skills偏向SDK介绍而非工程洞察；AWS Toolkit是新增MCP服务器收录
6	ai-boost/awesome-prompts (multi-agent orchestrator)	GitHub	⭐⭐⭐	⚠️ 丢弃	prompt engineering资源；属于指令模板而非工程实现；token数/跨agent协作细节缺失
7	vLLM vs TensorRT-LLM 2026 benchmark	Lyceum Tech	⭐⭐⭐	⚠️ 丢弃	EU主权云营销内容；benchmark数字无独立验证；生产参考价值低
8	awesome-ai-agents-2026 汇总列表	GitHub	⭐⭐	❌ 丢弃	列表聚合；无工程细节；已有更具体的awesome-harness-engineering覆盖

二、高价值条目详细评估

✅ 保留 1：vLLM vs SGLang 2026 生产决策框架（综合 DevOpsBeast / LeetLLM / Spheron）

来源： - DevOpsBeast: https://devopsbeast.com/blog/vllm-vs-sglang-production-2026 - LeetLLM: https://leetllm.com/blog/llm-inference-engine-comparison-2026 - Spheron: https://www.spheron.network/blog/vllm-vs-sglang-2026

可信度：⭐⭐⭐⭐⭐（三方交叉验证，有具体数字和决策树）

核心工程内容：

vLLM 仍领先的场景： - Speculative decoding：Eagle3 / EAGLE2 与 vLLM MRVAE 深度集成；SGLang speculative decoding 仍属实验性 - 多模态模型支持更广（H100/H200 生产案例更多） - 调试工具链成熟度高（Ray 生态 + Prometheus 指标完善度）

SGLang 已超越的场景： - Prefix-heavy RAG（>60% 请求共享系统提示或 RAG 文档）：RadixAttention 实现 KV cache 复用，TTFT 降低 20-40% - 结构化 JSON 输出：grammar-cache 复用使同 Schema 重复请求 overhead 趋近于零 - 多 LoRA adapter 服务：单 base model + 多 adapter，生产验证案例丰富

关键决策树（5分钟版本）：

Q1: 是否为 prefix-heavy RAG 场景（>60% 共享前缀）？
  → 是：优先 SGLang（RadixAttention TTFT 降低 20-40%）
  → 否：继续

Q2: 是否需要 speculative decoding？
  → 是：优先 vLLM（Eagle3 集成成熟度领先）
  → 否：继续

Q3: 是否为 unique-prompt 高并发场景？
  → 是：两者差距 <5%，选 operational simpler（vLLM）
  → 否：继续

Q4: 是否需要结构化 JSON schema 强制输出？
  → 是：SGLang grammar-cache 优势明显
  → 否：两者均可，按团队经验选型

H100 基准参考数字（来自 LeetLLM）： - Llama 3.1 8B batch：SGLang +29% throughput vs vLLM（因 C++ native arch） - Llama 70B FP8：vLLM vs SGLang throughput 差距 <10%

工程行动项： - 生产选型应先回答"workload shape 是什么"而非"哪个 benchmark 更高" - Prefix-heavy RAG 场景（多用户共享同一系统提示或 RAG chunk）：SGLang RadixAttention 优先级最高 - TensorRT-LLM 适合对原始 throughput 有极致追求但接受操作复杂度的团队

建议分类：LLM-Inference vLLM SGLang Production-Deployment Benchmark 后续行动：作为团队推理引擎选型 checklist；可与今天 0820 CSDN vLLM 参数配置联合归档

✅ 保留 2：Programmable OS-Level Policy Enforcement for Agent Harnesses

来源：arXiv 2606.25189 | https://arxiv.org/html/2606.25189v1

可信度：⭐⭐⭐⭐（Systems 方向，harness 安全边界精确化）

核心工程内容： - 问题定义：AI agent harness（模型周围的软件层，负责维护 agent loop 和 session 状态、路由工具调用）目前缺乏 OS 级别的 policy enforcement 机制 - 方案：programmable policy enforcement，让 harness developer 可以定义细粒度权限策略，OS 层强制执行 - 关键概念：将"模型是否应该调用这个工具"的问题从 prompt 层下沉到 OS 权限层，是 security-by-design 在 agent 系统的具体实现 - 工程价值：这是 agentic 系统安全工程的前沿方向——从 LLM 原生护栏扩展到基础设施原生护栏

建议分类：Agent-Harness Security Systems-Engineering 后续行动：关注该方向是否进入主流框架（LangGraph / AutoGen）实现；与 OWASP Top 10 Agents 交叉验证

✅ 条件保留 3：awesome-harness-engineering

来源：https://github.com/ai-boost/awesome-harness-engineering

保留条件：作为工程资源索引收录，但标注非原创研究

值得注意的内容： - arXiv 2603.05344：Building AI Coding Agents for the Terminal——首个系统性 terminal-native coding agent harness 工程论文 - Eager-construction scaffolding（消除首步延迟和竞态条件） - 复合多模型架构（execution / reasoning / critique / vision 分离） - 5层 defense-in-depth 安全 - Schema-filtered planning subagents - 这篇论文的工程细节（scaffolding时序、多模型协作协议）值得深入 - bradAGI/awesome-cli-coding-agents：80+ terminal-native AI coding agents 目录，含 session managers、parallel runners、autonomous loop infrastructure、credential vaults

建议分类：Agent-Harness Engineering-Resources Coding-Agents 后续行动：arXiv 2603.05344 值得精读并写入独立条目

✅ 条件保留 4：Langfuse v2 代码评审观测

来源：https://github.com/langfuse/langfuse（近期 commit 分析）

工程信号： - #13685 feat(evals): add code-based eval — 新增代码执行评测功能 - #13784 feat(evals): add code eval web flow — 前端代码评测工作流 - 真实 bug fix 经验：dedupe window 时间变更（60s → 5min）导致测试未更新的调试过程 - PR 中真实 co-author：Claude Opus 4.6（1M context）

条件保留原因：上次已收录 langfuse 基础功能，本次 commit 层面增量信息有限（主要是 eval 功能增强）

建议分类：LLM-Observability Code-Eval Production-Evidence 后续行动：如知识库有 eval/tracing 专题，可作为 langfuse v2 eval 能力更新条目

三、丢弃条目说明

丢弃条目	丢弃原因
ai-boost/awesome-prompts	Prompt 模板集合，非工程实现；缺乏跨 agent 协作的 token 经济学和真实复现步骤
vLLM vs TensorRT-LLM benchmark（Lyceum）	EU 主权云营销文；benchmark 数字无独立验证；同类内容（DevOpsBeast/LeetLLM）已有更高质量覆盖
awesome-ai-agents-2026（汇总列表）	列表聚合工作，无原创工程洞察；已有更具体的 awesome-harness-engineering 覆盖相同范围
Anthropic Skills（SDK 介绍级）	偏向 SDK 文档而非工程洞察；MCP 相关内容已在今天 0935 文件 Substack 条目中覆盖

四、Substack 线索（与已有条目交叉验证）

The AI Engineer（2026-06）AI Agents Stack 已在今天 0935 文件中完整覆盖（含六层架构 + MCP 安全数据）。本轮检索确认该内容同步发布于 O'Reilly Radar（https://www.oreilly.com/radar/the-ai-agents-stack-2026-edition），内容一致，无需重复归档。

Alex Ewero OWASP Top 10 Agents 同样已在 0935 文件覆盖，建议两者联合精读（Stack 框架 + Security checklist）。

五、去重参考

已读文件	去重说明
2026-06-26-0935	本批次 vLLM vs SGLang 对比内容为新维度（DevOpsBeast/LeetLLM 补充今天 0820 的 CSDN vLLM 参数细节）；OS-Level Policy Enforcement、awesome-harness-engineering 与 0935 的 OWASP/KV Cache 条目无重复
2026-06-26-0820	CSDN vLLM/llama.cpp 文章覆盖参数配置和 CUDA 排障，与本批次推理引擎决策框架互补

建议写入路径

/shared/research-kb/inbox/jay/2026-06-26-1050-engineering-filter-inference-stack-agentic-harness.md

分类标签

AI工程 LLM-Inference vLLM SGLang Agent-Harness Security Production-Deployment Benchmark GitHub-Trending

精读/审稿优先级

🔴 vLLM vs SGLang 2026 决策框架（三方综合版）→ 团队推理引擎选型必备
🔴 arXiv 2603.05344（Terminal Coding Agent Harness 工程论文）→ 独立精读条目
🔴 arXiv 2606.25189（OS-Level Policy Enforcement）→ Agent Harness 安全工程前沿
🟡 awesome-harness-engineering 索引更新 → 资源库条目
🟢 Langfuse v2 eval 功能 → 已有 langfuse 条目补充（可选）