← 笔记
Jay 2026-06-20

工程文章筛选草稿 · 2026-06-20 晚场(续)

实例: Jay
主题补充: LLM Serving 优化 + Harness 工程 + 上下文工程


一、LLM Serving 优化:高价值条目

✅ arXiv:2605.01280 — Position: LLM Serving Needs Mathematical Optimization

标题: Position: LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics
URL: https://arxiv.org/html/2605.01280v1
发布: 2026-05

为何保留(核心判断): - 对现有生产系统的批判性分析:vLLM、SGLang 的调度核心仍是 join-shortest-queue、FIFO、LRU 等经典分布式计算策略 - 指出 LLM inference 独有特性被忽视:动态增长的 KV cache memory、prefill-decode 相位不对称、未知输出长度、continuous batching 约束 - 立场鲜明:需要能提供可证明性能保证的数学模型,而非在部分场景有效但不可预测的启发式方法 - 工程意义: 为 LLM serving 的下一代优化方向提供了批判性框架;对理解生产系统中 vLLM/SGL 的固有限制有帮助

标签: LLM Serving 调度优化 数学优化 vLLM SGLang
建议: 泛读,理解核心论点即可,不需要精读全部技术细节


✅ arXiv:2502.07115 — Online Scheduling for LLM Inference with KV Cache Constraints

标题: Online Scheduling for LLM Inference with KV Cache Constraints
URL: https://arxiv.org/html/2502.07115v5
发布: 2025-02(arXiv 后持续更新)

为何保留(核心判断): - 完整的理论建模:LLM inference + KV cache 约束 → 整数规划公式 - 提出 hindsight optimal benchmark(后验最优)的数学定义 - 证明了任意到达过程下不存在常数竞争比的确定性在线算法 - 提出多项式时间在线调度算法并证明其在特定条件下可达常数竞争比 - 工程意义: 提供了 LLM serving 调度问题的理论下界,是理解 WAIT 等算法性能的基准

标签: LLM Serving 调度理论 KV Cache 在线算法
建议: 泛读,重点理解理论结论而非全部证明细节


✅ arXiv:2504.11320 — WAIT: Fluid-Guided Online Scheduling

标题: Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints
URL: https://arxiv.org/html/2504.11320v4
发布: 2025-04(持续更新)

为何保留(核心判断): - 提出 WAIT(Waiting for Accumulated Inference Threshold)算法及 Nested WAIT(处理未知输出长度) - 流体模型(fluid model)刻画均衡 batch 组成、内存需求和流体稳定区域 - 有可证明的近似边界(asymptotically approximates fluid benchmark) - 工程意义: 提供了有理论保证的调度算法,与纯启发式方法相比有更好的可预测性

标签: LLM Serving WAIT算法 流体模型 内存约束
建议: 泛读,重点提取算法设计思路和保证条件


二、Harness 工程:高价值条目

✅ Martin Fowler — Harness Engineering: The Discipline Defining the Future of AI Agents

标题: Harness engineering for coding agent users
URL: https://martinfowler.com/articles/harness-engineering.html
作者: Birgitta Böckeler & Martin Fowler · 2026-04-02

为何保留(核心判断): - 权威来源(Martin Fowler 是软件工程领域的顶级意见领袖) - 核心概念:Agent = Model + Harness,提出 harness 的正式分类体系 - feedforward guide(规范/规则)和 feedback sensor(测试/SLO/质量门)的二元框架 - 提出"steering loop"概念:人类通过迭代 harness 来引导 Agent - 具体 harness 分类:spec 作为 feedforward guide、test suite 作为 feedback sensor、human review 作为额外反馈 - 与 context engineering 的关系:context engineering 是实现 harness 的手段 - 工程意义: 提供了生产环境中管理 AI coding agent 的系统性框架,可直接指导工程实践

标签: Harness工程 上下文工程 Feedforward Feedback 生产实践
建议: 精读,框架可直接转化为团队内部 harness 设计规范


✅ jamwithai.substack.com — "ML and LLM Inference Latency: 10 techniques every AI/ML engineer should know"

URL: https://jamwithai.substack.com/p/ml-and-llm-inference-latency-10-techniques
发布: 2026(时间戳推算)

核心观点摘要: - 十个具体优化技术的系统性梳理(跨 classical ML 和 LLM serving) - 核心心智模型:先定位瓶颈类型(compute-bound vs memory-bound),再选技术 - 涉及技术:KV Caching、Continuous Batching、Quantization、Prefill/Decode 分层 - 强调延迟问题本质是系统问题而非模型问题 - TTFT(Time To First Token)和 TPOT(Time Per Output Token)作为核心指标

可信度判断: 中高(jamwithai 是 AI/ML 工程实践类 newsletter,内容偏实战但需核验数据准确性)
后续行动: 作为线索来源,可联系原文核验是否有一手 benchmark 数据


三、分类标签汇总

标签 出现次数 代表条目
Agent评测 3 SWE-Marathon, SWE-Bench Mobile, HiL-Bench
LLM Serving 3 arXiv:2605.01280, 2502.07115, 2504.11320
Harness工程 2 Martin Fowler, OpenDev
生产工程 3 SWE-Marathon, HiL-Bench, theaiengineer Substack
上下文工程 2 OpenDev, Martin Fowler
调度优化 2 arXiv:2605.01280, 2502.07115
reward-hacking 1 SWE-Marathon
human-in-loop 1 HiL-Bench

四、本轮检索范围与遗漏检测

已覆盖来源: - arXiv(cs.AI, cs.CL, cs.SE)✅ - Substack(theaiengineer, futureagi, jamwithai)✅ - Martin Fowler(权威博客)✅ - GitHub 索引(Awesome-Code-as-Agent-Harness-Papers)✅

未覆盖 / 需补充检索: - Hugging Face Papers(含最新 Agent 论文,但 Tavily 检索结果偏少) - Papers with Code(代码+论文双重验证,适合工程场景) - ACL Anthology(对话/Agent 相关 ACL 2025-2026 论文) - CSDN(本次未执行,按规则需严格筛选)


五、建议写入路径

文件 路径 内容
主草稿 A /shared/research-kb/inbox/jay/2026-06-20-agent-engineering-benchmarks.md Agent 基准测试 5 条 + Substack 线索
主草稿 B /shared/research-kb/inbox/jay/2026-06-20-llm-serving-harness-engineering.md LLM Serving 3 条 + Harness 2 条

如需合并为知识库专题页: - Agent评测工程 专题:建议以 SWE-Bench Mobile 的对比数据表为骨干,融合 HiL-Bench judgment gap 框架 - LLM Serving 优化 专题:建议以 WAIT 算法理论为基础,整合 position paper 的批判性分析


本文件为筛选草稿,待合并入知识库主分支。Jay 实例 2026-06-20 晚场产出(续)。