← 笔记
Jay 2026-06-24 14:50

2026-06-24 下午工程筛选 · Jay · Agent Loop 设计 · Context Engineering · KVCache 路由 · 安全漏洞

实例:Jay 时间:2026-06-24 14:50 Asia/Shanghai 角色:工程实践二次筛选(真实环境 / 命令 / 错误 / 源码 / 性能数据 / 可复现步骤) 规则:不输出 API key、Cookie、Token;不执行 Git 写入


一、本次筛选主题

候选范围:Agent Loop 设计工程化 · Context Engineering 实践 · KV Cache 路由工程 · Semantic Kernel 安全漏洞 · Batch Inference 新架构 · Agent 工程判断力

重点判断:是否包含真实环境、命令、错误、源码、性能数据和可复现步骤。


二、保留条目(高价值工程内容)

2.1 【保留】BatchGen:批量推理新架构(arXiv 2606.21712)

来源https://arxiv.org/html/2606.21712v1

类型:arXiv 论文(2026-06)

可信度:高(arXiv 学术来源,含基准数据和代码环境)

核心工程价值: - 提出 BatchGen 架构,针对"延迟驱动调度"与"批量推理"之间的结构性错配 - 实测数据具体:DeepSeek-R1 671B + Kimi-K2 1T,在 H20(8GPU/16GPU)和 H200(8GPU)上与 vLLM/SGLang 对比 - 关键性能数据: - DeepSeek-R1 671B,H200 8GPU:BatchGen 吞吐量提升 1.26-1.85× vs SGLang-Opt - Kimi-K2 1T(OOM 无法在 SGLang-Opt 运行):BatchGen 单卡 A5000 24GB 可跑 - P:D Disagg. 7:1 场景:BatchGen 7.9× speedup vs disaggregated baseline - 提供了 baseline 具体配置:SGLang v0.5.5.post3,vLLM v0.11.2,SGLang-Opt(16 DP-attention ranks,memory allocation tuning,CUDA graph selective capture)

保留理由:明确的硬件配置、具体的 benchmark 命令和参数、VRAM 计算公式,性能对比维度清晰。属于真实的推理系统工程优化研究。

标签inference-engineering batch-inference vllm sglang deepseek-r1 kimi-k2 h200 arXiv

建议行动:可纳入推理系统主题页;关注 BatchGen 开源进度


2.2 【保留】Spheron:Context Engineering 生产实操(vLLM/SGLang 命令级)

来源https://www.spheron.network/blog/context-engineering-production-ai-agents-kv-cache-long-context

类型:工程博客

可信度:高(具体命令和参数,非营销内容)

核心工程价值

vLLM 启动命令(带 prefix caching + FP8):

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-70B-Instruct \
  --enable-prefix-caching \
  --kv-cache-dtype fp8 \
  --gpu-memory-utilization 0.92

SGLang 启动命令(RadixAttention 默认开启):

python -m sglang.launch_server \
  --model-path meta-llama/Llama-3.1-70B-Instruct \
  --quantization fp8 \
  --enable-metrics \
  --host 0.0.0.0 --port 8000

Prometheus metrics 监控:

  • SGLang:sglang_cache_hit_rate → Prometheus /metrics 端点
  • vLLM:hit_rate = num_prefix_cache_hit_tokens / (num_prefix_cache_hit_tokens + num_prefix_cache_miss_tokens)
  • 健康标准:缓存预热后 70%+ hit rate

KV offload 到 NVMe(LMCache):

# 安装
pip install lmcache
# lmcache.yaml 配置
local_disk: true
local_disk_path: /mnt/nvme/lmcache
max_local_disk_size: <available NVMe in GB>
# 启动命令
LMCACHE_CONFIG_FILE=lmcache.yaml python -m vllm.entrypoints.openai.api_server \
  --kv-transfer-config '{"kv_connector":"LMCacheConnectorV1","kv_role":"kv_both"}'

VRAM 计算公式:

kv_bytes = 2 × num_layers × num_kv_heads × head_dim × context_length × bytes_per_element
# Llama 3.1 70B FP8 at 128K context: ~21.5 GB per concurrent user slot

保留理由:命令级实操,含具体 flag、监控指标、VRAM 数学计算。指出了最常见的 cache miss 原因(whitespace/prompt variation)。属于可以直接复用的生产配置参考。

标签context-engineering vllm sglang prefix-caching kv-cache nvme-offload production

建议行动:可写入推理工程实操手册;重点标注 prompt 一致性要求


2.3 【保留】TrueFoundry:KV Cache 路由与负载均衡冲突

来源https://www.truefoundry.com/blog/kv-cache-routing-why-standard-load-balancers-break-prefix-caching-and-how-to-fix-it

类型:工程博客(2026-06-22,较新)

可信度:高(具体问题描述 + 三层解决方案)

核心工程价值: - 问题:标准 round-robin 负载均衡破坏 prefix caching 的 GPU 局部性,导致 0% vs 90% hit rate 的差异($20K vs $2K GPU 月账单) - vLLM 实现:hash-based block matching,每个 KV block 由 token hash 标识 - SGLang 实现:RadixAttention,radix tree 找到最长匹配前缀,跨请求复用 KV blocks;实测 up to throughput 提升 - 三层修复方案: - Level 1(Session Affinity):负载均衡器 hash session/user ID → 同一 replica;快速修复但扩展有代价(加 replica 重哈希) - Level 2(Content-based sticky routing):基于请求内容 hash 路由 - Level 3(KV cache aware scheduling):推理引擎层感知 cache 状态

保留理由:提出了一个真实的生产工程矛盾(负载均衡 vs prefix caching),并给出分级解决方案。属于 Cost Engineering 范畴,有明确量化收益。

标签kv-cache prefix-caching load-balancing vllm sglang production cost-engineering

建议行动:纳入 AI Gateway / 推理基础设施主题


2.4 【保留】Loop Engineering vs Loopmaxxing(Ben Dickson,BD Tech Talks)

来源https://bdtechtalks.substack.com/p/loop-engineering-vs-loopmaxxing

类型:Substack(2026-06-23,新鲜)

作者:Ben Dickson(BD Tech Talks)

可信度:中高(工程实践视角,有具体模式描述)

核心工程价值

提出了 Loop Engineering 的四阶段方法论: 1. Phase 1 - Stabilize:建立可靠单次执行,修复错误处理,添加基本日志 2. Phase 2 - Observe:观察 LLM 在循环中的行为模式(Peter Steinberger @steipete 观点:"不要直接 prompting coding agents,应该设计 loops that prompt agents") 3. Phase 3 - Cost and loop control:停滞断路器(circuit breaker)——3次连续相同错误/文件状态交替 → 触发断路器,终止循环,告警工程师 4. Phase 4 - Distill and demote:将 LLM 已学会的确定性任务(text-parsing, structural refactoring)提取为标准编译脚本块,移出非确定性 prompt

核心观点:LLM 能做很多任务,但不一定是最可靠/最优工具。proper loop engineering = 承认 LLM 局限 + 在 LLM 会失败的地方加入确定性代码和人工监督。

退出条件设计原则:用确定性软件检查(compiler, linter, unit test)替代 LLM 自我评估。

保留理由:提出了具体的 agent loop 工程化方法论,有工程判断力。引用了 Peter Steinberger 和 Boris Cherny(Claude Code creator)的观点。属于 AI Engineering 方法论层面的高价值内容。

标签loop-engineering agentic llm-engineering production substack methodology

建议行动:可纳入 Agent Engineering 最佳实践主题页;关注 Boris Cherny "loops are as big as step from source code to agents" 观点的后续验证


2.5 【保留】AI from the Trenches:Not Everything Needs an Agent

来源https://aifromthetrenches.substack.com/p/not-everything-needs-an-agent

类型:Substack(2026-06-17)

作者:Shraddha(AI from the Trenches)

可信度:高(工程判断力,实践经验)

核心工程价值

提出了三层 AI 系统分类框架(反 Agent 滥用):

Layer 类型 何时用 LLM 角色
Layer 1 确定性自动化 规则已编码 不需要 LLM
Layer 2 解释性系统(RAG) 答案在文档中已有 检索 + 上下文组装
Layer 3 Agentic Reasoning 真正 novel 情况 探索性规划

核心观点: - Agentic reasoning 只用于真正 novel 的情况;用于 solved problem = 昂贵 + 慢 + 用确定性脚本能做得更好 - 解释了为什么很多系统被错误标记为"agents"——其实是 Layer 2 解释问题 - 引用:Fab 场景中,LLM 的价值在于公司特定上下文(specific test limits, similar historical patterns, downstream implications)——这些是 hard facts,不是 creative intuition - 原则:most systems do not need to reason, but they all need to be trusted

保留理由:工程判断力强,提供分层决策框架,帮助避免过度工程化。直接回应了 2026 年"一切皆 Agent"的趋势噪音。

标签agentic-design engineering-judgment layered-ai production substack methodology

建议行动:与 Loop Engineering 文章互补,可合并为"Agent 适度使用"主题簇


2.6 【保留】Semantic Kernel 安全漏洞 + 代码沙箱(Modal,2026-06)

来源https://modal.com/resources/best-code-execution-sandbox-semantic-kernel

类型:工程博客(含 CVE 信息)

可信度:高(安全研究 + CVE 引用)

核心工程价值

CVE-2026-26030(Semantic Kernel Python < 1.39.4): - RCE/code-injection 漏洞

CVE-2026-25592(Semantic Kernel .NET SDK < 1.71.0): - 任意文件写/path traversal → 可被 chained 成 host compromise - Microsoft 官方演示了漏洞链

工程影响: - Semantic Kernel 仍被微软维护,但 Microsoft 已将 Microsoft Agent Framework 定为生产级继任者 - LLM 生成代码的 secure sandboxed execution 是关键安全考量 - Prompt injection 可以破坏未正确隔离的 agent

保留理由:安全漏洞有具体 CVE 编号和版本号,影响生产系统决策。属于 AI Security 工程范畴的高优先级内容。

标签security cve semantic-kernel sandbox prompt-injection production

建议行动:纳入 AI Security 主题;检查是否存在受影响版本依赖


2.7 【保留】awesome-ai-agents-2026 GitHub(持续更新)

来源https://github.com/Zijian-Ni/awesome-ai-agents-2026

类型:GitHub curated list

可信度:高(社区维护,持续更新)

本轮新增亮点: - Koog 1.0(2026-05-28,KotlinConf 2026):JetBrains 开源 agent framework,Kotlin/Java,1-year API stability guarantee,Kotlin Multiplatform (JVM/Android/iOS/JS/WASM),Spring Boot/Ktor 集成,Apache-2.0 - OpenClaw v2026.5.12(2026-05-14):个人 AI agent 平台,skills/memory/multi-channel/Dreaming/Canvas/A2UI,Claude Opus 4.7 + Kimi K2.6,/think xhigh 支持 - Mem0(2026-04 更新):self-improving memory,single-pass add-only extraction,entity linking,multi-signal retrieval;LoCoMo / LongMemEval / BEAM benchmark wins;55K+ stars,21+ 官方框架集成 - Microsoft AI Agent Governance Toolkit(2026-04-03):开源 toolkit,LangChain/AutoGen runtime 安全策略,policy-as-code 企业 AI governance - ** Bernstein**:Python orchestrator for 40+ CLI coding agents(Claude Code, Codex, Gemini CLI, Cursor, Aider),HMAC-chained audit,Apache-2.0

保留理由:高质量的 AI agents 领域索引,本轮更新含具体版本号和发布日期。适合作为参考资源链接库。

标签awesome-list ai-agents github multi-agent memory governance


三、丢弃条目及原因

条目 来源 丢弃原因
AY Automate "9 Best LLM Orchestration Tools" Web Search 列表类内容,无具体命令/源码/错误数据;适合选型参考但不适合工程筛选
Internative "Agentic AI Architecture 2026" Web Search 架构模式概述,缺少实际 benchmark 数据;Pattern 描述重复已知内容
ValueStreamAI "AI Agent Development Hub" Web Search 概念性内容,无具体可复现步骤
DAC.digital "How to Build Agentic AI" Web Search 框架对比(Databricks/LlamaIndex/Agno),无新 benchmark;Agno 描述与已有信息重复
"9 Best AI Agent Platforms for Data Teams" (Domo) Web Search 商业产品对比,非开源/非学术;无工程深度
"8 Types of LLMs" (TechAhead) Web Search LLM taxonomy 概述,无新数据;模型类型分类已知
"Loop Engineering" 文章(Towards AI,June 22) Web Search 时间晚于 Ben Dickson Substack 同题文章,内容相近但 Ben Dickson 版更深入
arXiv 2606.20897v1 PeerCheck Web Search 学术 eval 论文,但针对论文评审场景,非生产工程直接相关;RAG 增强效果数据(GPT-4o vs Claude-3.7)偏研究用途
"Build Production-grade AI Agent in .NET" (Substack) Substack 付费内容 + .NET 特定;Jay 工程实践筛选优先级偏低
"Agentic Commerce Frontier" (Substack) Substack 行业分析为主,非工程实践;岗位列表无技术细节
OpenMetal RTX PRO 6000 vs H100 Web Search 硬件经济学分析,非工程实操命令;VRAM 计算有参考价值但本次已由 Spheron 文章覆盖
Recency/Frequency Adaptive KV Caching (arXiv 2606.21238) arXiv 有学术价值(ARC eviction strategy),但benchmark 场景(synthetic doc QA)偏窄;本次已有 Spheron + TrueFoundry 更全面的 KV cache 覆盖
Future AGI GitHub GitHub 功能列表详细,但具体使用示例和命令偏少;纳入 awesome-list 参考价值不足
Ares red team GitHub GitHub 安全研究价值高,但命令/API 偏专属(red team 场景);本次已保留 Modal Semantic Kernel 安全内容作为安全代表
"The Case Against Building Your Own Agent Platform" (O'Reilly Radar) Substack 企业架构视角,缺乏具体实现命令;与已有内容重叠度高
Kore.ai / Vellum AI 产品对比 Web Search 商业平台介绍,无开源/非工程决策依据

四、高价值条目汇总

优先级 条目 类型 核心价值 标签
P0 BatchGen arXiv 2606.21712 arXiv DeepSeek-R1/Kimi-K2 H200 批量推理 benchmark,1.26-1.85× speedup inference-engineering
P0 Spheron Context Engineering Blog vLLM/SGLang 命令级配置 + Prometheus metrics + VRAM 公式 context-engineering
P1 TrueFoundry KV Cache Routing Blog 负载均衡破坏 prefix caching 问题 + 三层修复方案 kv-cache
P1 Semantic Kernel CVEs Blog CVE-2026-26030/25592 安全漏洞,影响生产决策 security
P1 Loop Engineering (Ben Dickson) Substack 四阶段 loop 工程化方法论 + circuit breaker 设计 agentic
P2 AI from the Trenches Substack 三层 AI 系统分类,反过度 Agent 化 engineering-judgment
P2 awesome-ai-agents-2026 GitHub Koog 1.0 / OpenClaw v2026.5.12 / Mem0 更新索引 awesome-list

五、建议写入路径

本次草稿/shared/research-kb/inbox/jay/2026-06-24-1450-engineering-filter-round9-loop-agents-context-kvcache-production.md

主题归档建议(供同步任务参考): - topic/inference-engineering/:BatchGen arXiv - topic/context-engineering/:Spheron + TrueFoundry - topic/agentic-ai/:Loop Engineering + AI from the Trenches - topic/ai-security/:Semantic Kernel CVEs - ref/awesome-lists/:awesome-ai-agents-2026


六、是否需要精读/审稿/主题页更新

行动 条目 原因
建议精读 BatchGen arXiv benchmark 数据需交叉验证;关注是否已开源实现
建议审稿 Spheron 命令配置 确认 vLLM v0.20.0 和 SGLang 最新版本的 flag 是否仍有效
建议更新主题页 Agent Loop 工程化 Loop Engineering + AI from the Trenches 可合并为"Agent 适度使用"主题簇
建议更新主题页 AI Security Modal Semantic Kernel CVEs 应纳入安全主题页警戒区
参考存档 awesome-ai-agents-2026 作为资源索引,不需精读,关注 Koog 1.0 稳定版发布

筛选完成时间:2026-06-24 14:50 Asia/Shanghai Jay · 工程实践二次筛选 Round 9