研究草稿 · 2026-06-13 下午 · 工程精选:推理引擎实测 + Agent Harness 原则 + Prompt Injection 防御量化
实例: Jay | 检索范围: Spheron + MorphLLM + Techsy + Medium/TortMario + Substack(ManveerChawla/AlejandroAboy) + daily.dev + RankSquire | 类型: 高频运营 · 工程二次筛选
一、保留条目(工程高价值)
条目 A: 推理引擎 H100 横向实测(SGLang vs vLLM vs TensorRT-LLM)
- 来源: Spheron · "vLLM vs TensorRT-LLM vs SGLang: H100 Benchmarks (2026)"
- URL:
https://www.spheron.network/blog/vllm-vs-tensorrt-llm-vs-sglang-benchmarks - 可信度: ⭐⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐⭐(实测数据,硬件/软件版本明确)
- 核心工程内容(量化数据):
推理吞吐量(50 并发请求): | 引擎 | 版本 | 吞吐量 | |------|------|--------| | TensorRT-LLM | Latest | 2,100 tok/s | | SGLang | v0.4.3 | 1,920 tok/s | | vLLM | v0.7.3 | 1,850 tok/s |
TTFT p50(10 并发): - TensorRT-LLM: 105 ms - SGLang: 112 ms - vLLM: 120 ms
冷启动时间: - vLLM: ~62 秒 - SGLang: ~58 秒 - TensorRT-LLM: ~28 分钟(需编译步骤)
VRAM 占用(70B FP8 / 80GB H100):
- TensorRT-LLM idle: 74 GB(含 activation buffers)
- vLLM peak: 71 GB
- SGLang peak: 最低(KV cache 管理更优)
- 差异 <4 GB,瓶颈在 --max-model-len 和 --gpu-memory-utilization 设置
结论: - SGLang/LMDeploy(+LMDeploy 同为 ~16,200 tok/s)在 prefix-heavy(RAG、chat)场景优势 29% - TensorRT-LLM 编译后最强,但冷启动 28 分钟,适合固定模型长期部署 - vLLM 灵活性最高,模型热切换友好
- 工程行动建议: 生产选型时用本表做初始过滤;benchmark 方法论(RunPod + H100 + cu128)可复现
- 是否精读: 是(VRAM 调优 + cold start 权衡是实际部署关键决策点)
- 建议分类:
inference-engineeringbenchmarkh100vllmsglangtensorrt-llm
条目 B: Agent Harness 五大硬原则(来自 Medium/TortMario)
- 来源: Medium · "AI Agent Best Practices: Production-Ready Harness Engineering 2026 Guide"
- URL:
https://medium.com/@tort_mario/ai-agent-best-practices-production-ready-harness-engineering-2026-guide-c1236d713fac - 可信度: ⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐(失败模式分析 → 原则导出)
- 核心工程内容:
原则 1: Model proposes — harness executes(模型提方案,Harness 执行) - LLM 从不直接调工具;返回结构化工具调用 → Harness 验证 schema → 检查权限 → 执行 → 注入结果 - 防止 prompt injection 升级为任意代码执行
原则 2: 每个工具调用必须返回结果(含失败) - 无论成功 API 响应、权限拒绝还是超时,Agent 永远收到结构化 observation - 防止 dangling promises 和静默失败
原则 3: 风险等级决定流程 - 至少三级风险分层,高风险路径加人工审批门控
生产失败模式来源: - 失控循环(无限调用自身) - 工具重试直到 OOM - 上下文线性增长直到模型 window 静默截断
- 工程行动建议: 任何 Agent 项目立项时先review是否有 harness 层;Harness 是防止 demo → 3AM pager 的关键
- 是否精读: 是(可与 daily.dev 条目 C 对照阅读)
- 建议分类:
agent-engineeringproduction-patternssecurityharness
条目 C: Prompt Injection 防御五层架构 + 量化数据(Substack/Manveer Chawla)
- 来源: Substack · "Prompt Injection Defense for AI Agents: A 5-Layer Security Architecture"
- URL:
https://manveerc.substack.com/p/prompt-injection-defense-architecture-production-ai-agents - 作者: Manveer Chawla | 日期: 2026-02-25
- 可信度: ⭐⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐⭐(引用 Claude Sonnet 4.6 官方 system card)
- 核心工程内容(量化):
Anthropic Claude Sonnet 4.6 system card 实测数据(2026-02-17): - 所有安全开关启用 + extended thinking:计算机使用环境下首次攻击成功率 8% - 无限尝试后成功率升至 50% - 编码环境(同模型+extended thinking): 0.0%(零成功) - 差异来源:环境差异而非模型能力差异
五层防御架构: 1. 严格权限边界 2. 高风险操作门控 3. 输入清洗 4. 输出异常监控 5. 网络 + 凭证隔离(blast radius 控制)
工程含义: Agent 接入真实现生产环境(邮件/浏览器/数据库)时,50% 攻击成功率不可接受;防护投入需与 Agent 操作风险等级匹配
- Substack 标注: 高质量工程洞察,数据来源可溯(Anthropic 官方 system card);需后续核验完整 system card 原文
- 是否精读: 是(安全设计文档,建议关联阅读 OWASP MCP Top 10)
- 建议分类:
agent-securityprompt-injectionanthropicdefense-in-depth
条目 D: Agno 框架 + 完整 Guardrails 源码实现(Substack/Alejandro Aboy)
- 来源: Substack · "Building Secure AI Agents: From Prompt Injection to Production Guardrails"
- URL:
https://thepipeandtheline.substack.com/p/building-secure-ai-agents-from-prompt - 作者: Alejandro Aboy | 日期: 2026-05-28
- 可信度: ⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐(含 GitHub repo + 实际测试流程)
- 核心工程内容:
ShamanAI GitHub Repo 含:
- Agno 框架完整实现(多 Agent guardrails)
- Prompt injection 检测(自定义 pattern)
- PII 检测 + 正则 mask(regex pattern)
- OpenAI Content Moderation API 集成
- Structured outputs 强制执行
- 自定义 SecretProtectionGuardrail
- CLI agent 界面用于测试
- 完整测试套件
Human-in-the-Loop 实现方式: - 强制 Agent 请求权限 + 额外验证 - 高风险操作人工审批门控
- Substack 标注: 工程实操性强,GitHub repo 可直接运行;与条目 C 防御架构互补
- 是否精读: 是(源码级 guardrail 实现,适合作为 guardrail 层设计起点)
- 建议分类:
agent-securityagnoguardrailspII-detectiongithub
条目 E: Agent 生产三大失效模式 + 框架选型决策(daily.dev)
- 来源: daily.dev · "AI agents in production: LangChain & CrewAI patterns 2026"
- URL:
https://daily.dev/blog/ai-agents-guide-for-developers-langchain-crewai - 可信度: ⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐(生产真实失效模式,非 demo 导向)
- 核心工程内容:
三大生产失效模式: 1. 失控循环(runaway loops): Agent 不断调用自身直到账单告警 2. 工具重试 OOM: 工具失败后不断重试,内存耗尽 3. 上下文线性增长: context window 静默截断,Agent 行为不可预测
必须有的生产配置:
- MAX_LOOPS 限制
- 熔断器(circuit breaker)
- 成本上限(cost ceiling)
- 明确终止条件
CrewAI → LangGraph 迁移警示: - CrewAI 适合 2 周 demo,LangGraph 适合生产 - 混用两框架造成运维割裂和监控碎片化
- 工程行动建议: 所有 Agent 项目启动前 review "failure tolerance" 决策;与条目 B harness 原则互为因果
- 是否精读: 快速浏览(与条目 B 重叠度高,B 更深入)
- 建议分类:
agent-engineeringproduction-patternsfailure-modescrewailanggraph
条目 F: 推理引擎版本化性能对比(SGLang v0.4.3 vs LMDeploy vs vLLM v0.7.3)
- 来源: MorphLLM + AIMultiple · "LLM Inference Optimization / Engines Compared"
- URL:
https://www.morphllm.com/llm-inference-optimization|https://aimultiple.com/inference-engines - 可信度: ⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐(版本化数据 + 架构原因分析)
- 核心工程内容:
FlashAttention 版本差异: - FlashAttention-3 提供最快 custom kernels,已集成 vLLM 和 SGLang
Speculative Decoding(投机解码): - 小模型 draft → 大模型并行验证 - 内存带宽受限场景加速 2-3× - vLLM 新推 Unified Parallel Drafting + structured outputs 共存 - SGLang 实现类似,中等并发略优
Structured Outputs 性能差异: - vLLM guided decoding 在 batch≥8 时 throughput 显著下降 - SGLang 重叠 mask 生成与 GPU inference,overhead 最小
架构原因(推测): - SGLang/LMDeploy 在 kernel 层面与 attention 机制协同设计 - vLLM 维护更宽泛的兼容性层,深度硬件优化受限(H100 TMA 利用率差异)
- 与条目 A 关系: 同一主题,条目 A 侧重实测数字,条目 F 侧重架构原因分析;建议合并阅读
- 是否精读: 快速浏览
- 建议分类:
inference-engineeringsglangvllmspeculative-decodingstructured-outputs
条目 G: Techsy vLLM vs SGLang 2026 横向(含 TGI EOL 警示)
- 来源: Techsy · "vLLM vs SGLang 2026: H100 Benchmarks Inside"
- URL:
https://techsy.io/en/blog/vllm-vs-sglang - 可信度: ⭐⭐⭐⭐ | 工程价值: ⭐⭐⭐⭐(含生产选型决策建议)
- 核心工程内容:
Hugging Face TGI 2025-12 进入维护模式,新项目建议用 vLLM 或 SGLang
Structured Outputs: - XGrammar 和 LLGuidance grammar backends 均支持 - SGLang 在 guided decoding 性能优势明确(overlap mask generation)
Prefix-heavy 场景 SGLang 胜出: - RAG pipelines、multi-turn chatbots、shared-prefix workloads - unique prompt benchmark 无法体现此优势(选型时需考虑实际 workload 模式)
生产选型结论: - vLLM: 宽泛硬件支持,最大社区,AWS/GCP/Azure 部署成熟 - SGLang: multi-turn、structured outputs、prefix-heavy pipelines - TensorRT-LLM: 单一模型长期部署 + 吞吐量优先
- 工程行动建议: 已有 TGI 部署的项目做 vLLM/SGLang 迁移规划;新项目禁入 TGI
- 是否精读: 快速浏览(与条目 A/F 高度重叠,本条补充 TGI EOL 警示)
- 建议分类:
inference-engineeringvllmsglangtgi-eolproduction-deployment
二、丢弃条目及理由
| 条目 | 来源 | 丢弃理由 |
|---|---|---|
| AI Agent 2026 完整指南 | EITT Academy | 25-30 分钟 overview,无源码/命令/实测;定位决策者而非工程师 |
| Build AI Agent 8 Steps | AgileSoftLabs | step-by-step 框架,无代码细节,不含错误处理/环境配置 |
| RAG Bootcamp YouTube | YouTube | 仅 timestamps,不是可索引文本;实操内容需观看视频获取 |
| Data Science Roadmap 2026 | Substack/jamwithai | 职业路线图,非工程实现;含 MLOps track 但缺深度技术内容 |
| ML vs AI Engineer Career | Substack/nidly | 职业选择分析,无工程实现细节 |
| The State of AI Coding 2026 | Substack/grokkingtechcareer | 调试思路有价值,但条目 B/E 已覆盖更完整;标记为补充阅读 |
| AI Engineer Roadmap "Ship or Die" | Substack/himanshuramchandani | Micrograd 建议有价值,但 Andrej Karpathy 课程非新内容 |
| The State of AI Coding 2026 | Substack/grokkingtechcareer | 调试思路有价值,但条目 B/E 已覆盖更完整;标记为补充阅读 |
| Data Science Roadmap 2026 | Substack/jamwithai | 职业路线图,非工程实现;含 MLOps track 但缺深度技术内容 |
| AI Roadmap 2026 | Substack/theneuralmaze | 系列介绍,缺具体实现细节 |
三、本轮汇总
主题: LLM 推理引擎实测 + Agent Harness 原则 + Prompt Injection 量化防御
候选总数: 17 条 保留: 7 条(工程高价值) 丢弃: 10 条(泛化/职业/低工程密度)
关键工程洞察: 1. SGLang v0.4.3 在 prefix-heavy 生产负载中比 vLLM v0.7.3 高 ~29% 吞吐量;TGI 已 EOL,新项目禁入 2. Agent harness 层是 demo → 生产的核心隔离层;"model proposes, harness executes" 是防 prompt injection 升级的架构原则 3. Claude Sonnet 4.6 官方数据:计算机使用环境下 prompt injection 最终成功率 50%;编码环境下 0%——说明环境隔离比模型能力更重要 4. Agent 生产三大杀手:失控循环、工具重试 OOM、context 静默截断;MAX_LOOPS + 熔断器是必须项
建议写入路径: /shared/research-kb/inbox/jay/2026-06-13-afternoon-inference-benchmark-agent-harness-engineering.md
后续行动: - [ ] 核验 Claude Sonnet 4.6 system card 原文(Anthropic 官方发布页面) - [ ] OWASP MCP Top 10 完整内容(安全 checklist) - [ ] ShamanAI GitHub repo 实际代码质量评估 - [ ] 本期与 06-11/06-12 推理/安全草稿合并去重
Jay · 2026-06-13 14:50 CST · 工程实践二次筛选