知识库草稿 · Jay · 2026-06-26 上午工程筛选
主题
AI 工程二次筛选 · 推理引擎选型决策框架 · Agent Harness 工程实践 · GitHub 工程资源评估
一、候选条目(筛前 8 条)
来自今日已产出草稿 + 新检索候选,按工程价值排序。
| # | 条目 | 来源 | 工程信号 | 保留/丢弃 | 理由 |
|---|---|---|---|---|---|
| 1 | vLLM vs SGLang 2026 生产决策框架 | DevOpsBeast / LeetLLM / Spheron | ⭐⭐⭐⭐⭐ | ✅ 保留 | 明确的决策框架(workload shape → engine选择)、H100 benchmark数字、生产经验数据 |
| 2 | OS-Level Policy Enforcement for Agent Harnesses | arXiv 2606.25189 | ⭐⭐⭐⭐ | ✅ 保留 | 精确的harness安全边界定义;programmable enforcement机制;生产级安全设计 |
| 3 | awesome-harness-engineering GitHub合集 | GitHub ai-boost | ⭐⭐⭐⭐ | ✅ 保留(有条件) | 收录了首个terminal-native coding agent harness工程论文(arXiv 2603.05344);需标注为资源索引而非原创研究 |
| 4 | Langfuse v2 代码评审观测平台 | GitHub Langfuse | ⭐⭐⭐ | ✅ 保留(有条件) | langfuse近期commit中大量code eval相关PR(#13685, #13784);含真实bug fix经验;需去重(上次已收录langfuse) |
| 5 | Anthropic Skills + AWS Agent Toolkit | GitHub Trending | ⭐⭐⭐ | ⚠️ 条件保留 | 官方工程实践;但Anthropic Skills偏向SDK介绍而非工程洞察;AWS Toolkit是新增MCP服务器收录 |
| 6 | ai-boost/awesome-prompts (multi-agent orchestrator) | GitHub | ⭐⭐⭐ | ⚠️ 丢弃 | prompt engineering资源;属于指令模板而非工程实现;token数/跨agent协作细节缺失 |
| 7 | vLLM vs TensorRT-LLM 2026 benchmark | Lyceum Tech | ⭐⭐⭐ | ⚠️ 丢弃 | EU主权云营销内容;benchmark数字无独立验证;生产参考价值低 |
| 8 | awesome-ai-agents-2026 汇总列表 | GitHub | ⭐⭐ | ❌ 丢弃 | 列表聚合;无工程细节;已有更具体的awesome-harness-engineering覆盖 |
二、高价值条目详细评估
✅ 保留 1:vLLM vs SGLang 2026 生产决策框架(综合 DevOpsBeast / LeetLLM / Spheron)
来源: - DevOpsBeast: https://devopsbeast.com/blog/vllm-vs-sglang-production-2026 - LeetLLM: https://leetllm.com/blog/llm-inference-engine-comparison-2026 - Spheron: https://www.spheron.network/blog/vllm-vs-sglang-2026
可信度:⭐⭐⭐⭐⭐(三方交叉验证,有具体数字和决策树)
核心工程内容:
vLLM 仍领先的场景: - Speculative decoding:Eagle3 / EAGLE2 与 vLLM MRVAE 深度集成;SGLang speculative decoding 仍属实验性 - 多模态模型支持更广(H100/H200 生产案例更多) - 调试工具链成熟度高(Ray 生态 + Prometheus 指标完善度)
SGLang 已超越的场景: - Prefix-heavy RAG(>60% 请求共享系统提示或 RAG 文档):RadixAttention 实现 KV cache 复用,TTFT 降低 20-40% - 结构化 JSON 输出:grammar-cache 复用使同 Schema 重复请求 overhead 趋近于零 - 多 LoRA adapter 服务:单 base model + 多 adapter,生产验证案例丰富
关键决策树(5分钟版本):
Q1: 是否为 prefix-heavy RAG 场景(>60% 共享前缀)?
→ 是:优先 SGLang(RadixAttention TTFT 降低 20-40%)
→ 否:继续
Q2: 是否需要 speculative decoding?
→ 是:优先 vLLM(Eagle3 集成成熟度领先)
→ 否:继续
Q3: 是否为 unique-prompt 高并发场景?
→ 是:两者差距 <5%,选 operational simpler(vLLM)
→ 否:继续
Q4: 是否需要结构化 JSON schema 强制输出?
→ 是:SGLang grammar-cache 优势明显
→ 否:两者均可,按团队经验选型
H100 基准参考数字(来自 LeetLLM): - Llama 3.1 8B batch:SGLang +29% throughput vs vLLM(因 C++ native arch) - Llama 70B FP8:vLLM vs SGLang throughput 差距 <10%
工程行动项: - 生产选型应先回答"workload shape 是什么"而非"哪个 benchmark 更高" - Prefix-heavy RAG 场景(多用户共享同一系统提示或 RAG chunk):SGLang RadixAttention 优先级最高 - TensorRT-LLM 适合对原始 throughput 有极致追求但接受操作复杂度的团队
建议分类:LLM-Inference vLLM SGLang Production-Deployment Benchmark
后续行动:作为团队推理引擎选型 checklist;可与今天 0820 CSDN vLLM 参数配置联合归档
✅ 保留 2:Programmable OS-Level Policy Enforcement for Agent Harnesses
来源:arXiv 2606.25189 | https://arxiv.org/html/2606.25189v1
可信度:⭐⭐⭐⭐(Systems 方向,harness 安全边界精确化)
核心工程内容: - 问题定义:AI agent harness(模型周围的软件层,负责维护 agent loop 和 session 状态、路由工具调用)目前缺乏 OS 级别的 policy enforcement 机制 - 方案:programmable policy enforcement,让 harness developer 可以定义细粒度权限策略,OS 层强制执行 - 关键概念:将"模型是否应该调用这个工具"的问题从 prompt 层下沉到 OS 权限层,是 security-by-design 在 agent 系统的具体实现 - 工程价值:这是 agentic 系统安全工程的前沿方向——从 LLM 原生护栏扩展到基础设施原生护栏
建议分类:Agent-Harness Security Systems-Engineering
后续行动:关注该方向是否进入主流框架(LangGraph / AutoGen)实现;与 OWASP Top 10 Agents 交叉验证
✅ 条件保留 3:awesome-harness-engineering
来源:https://github.com/ai-boost/awesome-harness-engineering
保留条件:作为工程资源索引收录,但标注非原创研究
值得注意的内容: - arXiv 2603.05344:Building AI Coding Agents for the Terminal——首个系统性 terminal-native coding agent harness 工程论文 - Eager-construction scaffolding(消除首步延迟和竞态条件) - 复合多模型架构(execution / reasoning / critique / vision 分离) - 5层 defense-in-depth 安全 - Schema-filtered planning subagents - 这篇论文的工程细节(scaffolding时序、多模型协作协议)值得深入 - bradAGI/awesome-cli-coding-agents:80+ terminal-native AI coding agents 目录,含 session managers、parallel runners、autonomous loop infrastructure、credential vaults
建议分类:Agent-Harness Engineering-Resources Coding-Agents
后续行动:arXiv 2603.05344 值得精读并写入独立条目
✅ 条件保留 4:Langfuse v2 代码评审观测
来源:https://github.com/langfuse/langfuse(近期 commit 分析)
工程信号:
- #13685 feat(evals): add code-based eval — 新增代码执行评测功能
- #13784 feat(evals): add code eval web flow — 前端代码评测工作流
- 真实 bug fix 经验:dedupe window 时间变更(60s → 5min)导致测试未更新的调试过程
- PR 中真实 co-author:Claude Opus 4.6(1M context)
条件保留原因:上次已收录 langfuse 基础功能,本次 commit 层面增量信息有限(主要是 eval 功能增强)
建议分类:LLM-Observability Code-Eval Production-Evidence
后续行动:如知识库有 eval/tracing 专题,可作为 langfuse v2 eval 能力更新条目
三、丢弃条目说明
| 丢弃条目 | 丢弃原因 |
|---|---|
| ai-boost/awesome-prompts | Prompt 模板集合,非工程实现;缺乏跨 agent 协作的 token 经济学和真实复现步骤 |
| vLLM vs TensorRT-LLM benchmark(Lyceum) | EU 主权云营销文;benchmark 数字无独立验证;同类内容(DevOpsBeast/LeetLLM)已有更高质量覆盖 |
| awesome-ai-agents-2026(汇总列表) | 列表聚合工作,无原创工程洞察;已有更具体的 awesome-harness-engineering 覆盖相同范围 |
| Anthropic Skills(SDK 介绍级) | 偏向 SDK 文档而非工程洞察;MCP 相关内容已在今天 0935 文件 Substack 条目中覆盖 |
四、Substack 线索(与已有条目交叉验证)
The AI Engineer(2026-06)AI Agents Stack 已在今天 0935 文件中完整覆盖(含六层架构 + MCP 安全数据)。本轮检索确认该内容同步发布于 O'Reilly Radar(https://www.oreilly.com/radar/the-ai-agents-stack-2026-edition),内容一致,无需重复归档。
Alex Ewero OWASP Top 10 Agents 同样已在 0935 文件覆盖,建议两者联合精读(Stack 框架 + Security checklist)。
五、去重参考
| 已读文件 | 去重说明 |
|---|---|
| 2026-06-26-0935 | 本批次 vLLM vs SGLang 对比内容为新维度(DevOpsBeast/LeetLLM 补充今天 0820 的 CSDN vLLM 参数细节);OS-Level Policy Enforcement、awesome-harness-engineering 与 0935 的 OWASP/KV Cache 条目无重复 |
| 2026-06-26-0820 | CSDN vLLM/llama.cpp 文章覆盖参数配置和 CUDA 排障,与本批次推理引擎决策框架互补 |
建议写入路径
/shared/research-kb/inbox/jay/2026-06-26-1050-engineering-filter-inference-stack-agentic-harness.md
分类标签
AI工程 LLM-Inference vLLM SGLang Agent-Harness Security Production-Deployment Benchmark GitHub-Trending
精读/审稿优先级
- 🔴 vLLM vs SGLang 2026 决策框架(三方综合版)→ 团队推理引擎选型必备
- 🔴 arXiv 2603.05344(Terminal Coding Agent Harness 工程论文)→ 独立精读条目
- 🔴 arXiv 2606.25189(OS-Level Policy Enforcement)→ Agent Harness 安全工程前沿
- 🟡 awesome-harness-engineering 索引更新 → 资源库条目
- 🟢 Langfuse v2 eval 功能 → 已有 langfuse 条目补充(可选)