研究草稿 · 2026-06-13 下午 · 工程精选：推理引擎实测 + Agent Harness 原则 + Prompt Injection 防御量化

实例: Jay | 检索范围: Spheron + MorphLLM + Techsy + Medium/TortMario + Substack(ManveerChawla/AlejandroAboy) + daily.dev + RankSquire | 类型: 高频运营 · 工程二次筛选

一、保留条目（工程高价值）

条目 A: 推理引擎 H100 横向实测（SGLang vs vLLM vs TensorRT-LLM）

来源: Spheron · "vLLM vs TensorRT-LLM vs SGLang: H100 Benchmarks (2026)"
URL: https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks
可信度: ⭐⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐⭐（实测数据，硬件/软件版本明确）
核心工程内容（量化数据）:

推理吞吐量（50 并发请求）: | 引擎 | 版本 | 吞吐量 | |------|------|--------| | TensorRT-LLM | Latest | 2,100 tok/s | | SGLang | v0.4.3 | 1,920 tok/s | | vLLM | v0.7.3 | 1,850 tok/s |

TTFT p50（10 并发）: - TensorRT-LLM: 105 ms - SGLang: 112 ms - vLLM: 120 ms

冷启动时间: - vLLM: ~62 秒 - SGLang: ~58 秒 - TensorRT-LLM: ~28 分钟（需编译步骤）

VRAM 占用（70B FP8 / 80GB H100）: - TensorRT-LLM idle: 74 GB（含 activation buffers） - vLLM peak: 71 GB - SGLang peak: 最低（KV cache 管理更优） - 差异 <4 GB，瓶颈在 --max-model-len 和 --gpu-memory-utilization 设置

结论: - SGLang/LMDeploy（+LMDeploy 同为 ~16,200 tok/s）在 prefix-heavy（RAG、chat）场景优势 29% - TensorRT-LLM 编译后最强，但冷启动 28 分钟，适合固定模型长期部署 - vLLM 灵活性最高，模型热切换友好

工程行动建议: 生产选型时用本表做初始过滤；benchmark 方法论（RunPod + H100 + cu128）可复现
是否精读: 是（VRAM 调优 + cold start 权衡是实际部署关键决策点）
建议分类: inference-engineering benchmark h100 vllm sglang tensorrt-llm

条目 B: Agent Harness 五大硬原则（来自 Medium/TortMario）

来源: Medium · "AI Agent Best Practices: Production-Ready Harness Engineering 2026 Guide"
URL: https://medium.com/@tort_mario/ai-agent-best-practices-production-ready-harness-engineering-2026-guide-c1236d713fac
可信度: ⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐（失败模式分析 → 原则导出）
核心工程内容:

原则 1: Model proposes — harness executes（模型提方案，Harness 执行） - LLM 从不直接调工具；返回结构化工具调用 → Harness 验证 schema → 检查权限 → 执行 → 注入结果 - 防止 prompt injection 升级为任意代码执行

原则 2: 每个工具调用必须返回结果（含失败） - 无论成功 API 响应、权限拒绝还是超时，Agent 永远收到结构化 observation - 防止 dangling promises 和静默失败

原则 3: 风险等级决定流程 - 至少三级风险分层，高风险路径加人工审批门控

生产失败模式来源: - 失控循环（无限调用自身） - 工具重试直到 OOM - 上下文线性增长直到模型 window 静默截断

工程行动建议: 任何 Agent 项目立项时先review是否有 harness 层；Harness 是防止 demo → 3AM pager 的关键
是否精读: 是（可与 daily.dev 条目 C 对照阅读）
建议分类: agent-engineering production-patterns security harness

条目 C: Prompt Injection 防御五层架构 + 量化数据（Substack/Manveer Chawla）

来源: Substack · "Prompt Injection Defense for AI Agents: A 5-Layer Security Architecture"
URL: https://manveerc.substack.com/p/prompt-injection-defense-architecture-production-ai-agents
作者: Manveer Chawla | 日期: 2026-02-25
可信度: ⭐⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐⭐（引用 Claude Sonnet 4.6 官方 system card）
核心工程内容（量化）:

Anthropic Claude Sonnet 4.6 system card 实测数据（2026-02-17）: - 所有安全开关启用 + extended thinking：计算机使用环境下首次攻击成功率 8% - 无限尝试后成功率升至 50% - 编码环境（同模型+extended thinking）: 0.0%（零成功） - 差异来源：环境差异而非模型能力差异

五层防御架构: 1. 严格权限边界 2. 高风险操作门控 3. 输入清洗 4. 输出异常监控 5. 网络 + 凭证隔离（blast radius 控制）

工程含义: Agent 接入真实现生产环境（邮件/浏览器/数据库）时，50% 攻击成功率不可接受；防护投入需与 Agent 操作风险等级匹配

Substack 标注: 高质量工程洞察，数据来源可溯（Anthropic 官方 system card）；需后续核验完整 system card 原文
是否精读: 是（安全设计文档，建议关联阅读 OWASP MCP Top 10）
建议分类: agent-security prompt-injection anthropic defense-in-depth

条目 D: Agno 框架 + 完整 Guardrails 源码实现（Substack/Alejandro Aboy）

来源: Substack · "Building Secure AI Agents: From Prompt Injection to Production Guardrails"
URL: https://thepipeandtheline.substack.com/p/building-secure-ai-agents-from-prompt
作者: Alejandro Aboy | 日期: 2026-05-28
可信度: ⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐（含 GitHub repo + 实际测试流程）
核心工程内容:

ShamanAI GitHub Repo 含: - Agno 框架完整实现（多 Agent guardrails） - Prompt injection 检测（自定义 pattern） - PII 检测 + 正则 mask（regex pattern） - OpenAI Content Moderation API 集成 - Structured outputs 强制执行 - 自定义 SecretProtectionGuardrail - CLI agent 界面用于测试 - 完整测试套件

Human-in-the-Loop 实现方式: - 强制 Agent 请求权限 + 额外验证 - 高风险操作人工审批门控

Substack 标注: 工程实操性强，GitHub repo 可直接运行；与条目 C 防御架构互补
是否精读: 是（源码级 guardrail 实现，适合作为 guardrail 层设计起点）
建议分类: agent-security agno guardrails pII-detection github

条目 E: Agent 生产三大失效模式 + 框架选型决策（daily.dev）

来源: daily.dev · "AI agents in production: LangChain & CrewAI patterns 2026"
URL: https://daily.dev/blog/ai-agents-guide-for-developers-langchain-crewai
可信度: ⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐（生产真实失效模式，非 demo 导向）
核心工程内容:

三大生产失效模式: 1. 失控循环（runaway loops）: Agent 不断调用自身直到账单告警 2. 工具重试 OOM: 工具失败后不断重试，内存耗尽 3. 上下文线性增长: context window 静默截断，Agent 行为不可预测

必须有的生产配置: - MAX_LOOPS 限制 - 熔断器（circuit breaker） - 成本上限（cost ceiling） - 明确终止条件

CrewAI → LangGraph 迁移警示: - CrewAI 适合 2 周 demo，LangGraph 适合生产 - 混用两框架造成运维割裂和监控碎片化

工程行动建议: 所有 Agent 项目启动前 review "failure tolerance" 决策；与条目 B harness 原则互为因果
是否精读: 快速浏览（与条目 B 重叠度高，B 更深入）
建议分类: agent-engineering production-patterns failure-modes crewai langgraph

条目 F: 推理引擎版本化性能对比（SGLang v0.4.3 vs LMDeploy vs vLLM v0.7.3）

来源: MorphLLM + AIMultiple · "LLM Inference Optimization / Engines Compared"
URL: https://www.morphllm.com/llm-inference-optimization | https://aimultiple.com/inference-engines
可信度: ⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐（版本化数据 + 架构原因分析）
核心工程内容:

FlashAttention 版本差异: - FlashAttention-3 提供最快 custom kernels，已集成 vLLM 和 SGLang

Speculative Decoding（投机解码）: - 小模型 draft → 大模型并行验证 - 内存带宽受限场景加速 2-3× - vLLM 新推 Unified Parallel Drafting + structured outputs 共存 - SGLang 实现类似，中等并发略优

Structured Outputs 性能差异: - vLLM guided decoding 在 batch≥8 时 throughput 显著下降 - SGLang 重叠 mask 生成与 GPU inference，overhead 最小

架构原因（推测）: - SGLang/LMDeploy 在 kernel 层面与 attention 机制协同设计 - vLLM 维护更宽泛的兼容性层，深度硬件优化受限（H100 TMA 利用率差异）

与条目 A 关系: 同一主题，条目 A 侧重实测数字，条目 F 侧重架构原因分析；建议合并阅读
是否精读: 快速浏览
建议分类: inference-engineering sglang vllm speculative-decoding structured-outputs

条目 G: Techsy vLLM vs SGLang 2026 横向（含 TGI EOL 警示）

来源: Techsy · "vLLM vs SGLang 2026: H100 Benchmarks Inside"
URL: https://techsy.io/en/blog/vllm-vs-sglang
可信度: ⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐（含生产选型决策建议）
核心工程内容:

Hugging Face TGI 2025-12 进入维护模式，新项目建议用 vLLM 或 SGLang

Structured Outputs: - XGrammar 和 LLGuidance grammar backends 均支持 - SGLang 在 guided decoding 性能优势明确（overlap mask generation）

Prefix-heavy 场景 SGLang 胜出: - RAG pipelines、multi-turn chatbots、shared-prefix workloads - unique prompt benchmark 无法体现此优势（选型时需考虑实际 workload 模式）

生产选型结论: - vLLM: 宽泛硬件支持，最大社区，AWS/GCP/Azure 部署成熟 - SGLang: multi-turn、structured outputs、prefix-heavy pipelines - TensorRT-LLM: 单一模型长期部署 + 吞吐量优先

工程行动建议: 已有 TGI 部署的项目做 vLLM/SGLang 迁移规划；新项目禁入 TGI
是否精读: 快速浏览（与条目 A/F 高度重叠，本条补充 TGI EOL 警示）
建议分类: inference-engineering vllm sglang tgi-eol production-deployment

二、丢弃条目及理由

条目	来源	丢弃理由
AI Agent 2026 完整指南	EITT Academy	25-30 分钟 overview，无源码/命令/实测；定位决策者而非工程师
Build AI Agent 8 Steps	AgileSoftLabs	step-by-step 框架，无代码细节，不含错误处理/环境配置
RAG Bootcamp YouTube	YouTube	仅 timestamps，不是可索引文本；实操内容需观看视频获取
Data Science Roadmap 2026	Substack/jamwithai	职业路线图，非工程实现；含 MLOps track 但缺深度技术内容
ML vs AI Engineer Career	Substack/nidly	职业选择分析，无工程实现细节
The State of AI Coding 2026	Substack/grokkingtechcareer	调试思路有价值，但条目 B/E 已覆盖更完整；标记为补充阅读
AI Engineer Roadmap "Ship or Die"	Substack/himanshuramchandani	Micrograd 建议有价值，但 Andrej Karpathy 课程非新内容
The State of AI Coding 2026	Substack/grokkingtechcareer	调试思路有价值，但条目 B/E 已覆盖更完整；标记为补充阅读
Data Science Roadmap 2026	Substack/jamwithai	职业路线图，非工程实现；含 MLOps track 但缺深度技术内容
AI Roadmap 2026	Substack/theneuralmaze	系列介绍，缺具体实现细节

三、本轮汇总

主题: LLM 推理引擎实测 + Agent Harness 原则 + Prompt Injection 量化防御

候选总数: 17 条保留: 7 条（工程高价值）丢弃: 10 条（泛化/职业/低工程密度）

关键工程洞察: 1. SGLang v0.4.3 在 prefix-heavy 生产负载中比 vLLM v0.7.3 高 ~29% 吞吐量；TGI 已 EOL，新项目禁入 2. Agent harness 层是 demo → 生产的核心隔离层；"model proposes, harness executes" 是防 prompt injection 升级的架构原则 3. Claude Sonnet 4.6 官方数据：计算机使用环境下 prompt injection 最终成功率 50%；编码环境下 0%——说明环境隔离比模型能力更重要 4. Agent 生产三大杀手：失控循环、工具重试 OOM、context 静默截断；MAX_LOOPS + 熔断器是必须项

建议写入路径: /shared/research-kb/inbox/jay/2026-06-13-afternoon-inference-benchmark-agent-harness-engineering.md

后续行动: - [ ] 核验 Claude Sonnet 4.6 system card 原文（Anthropic 官方发布页面） - [ ] OWASP MCP Top 10 完整内容（安全 checklist） - [ ] ShamanAI GitHub repo 实际代码质量评估 - [ ] 本期与 06-11/06-12 推理/安全草稿合并去重

Jay · 2026-06-13 14:50 CST · 工程实践二次筛选