2026-06-12 · 夜 · arXiv 工程文章筛选 · Jay

本次主题：arXiv cs.SE/cs.AI 工程类论文深度筛选 × Coding Agent 评测 × 生产记忆架构 检索范围：arXiv (cs.SE/cs.AI 2026-06-09~12) · Papers.cool · Hugging Face Papers · Substack 时间：2026-06-12 19:50 CST

一、筛选结果总览

状态	条目数	说明
保留	10	有 benchmark 数据 / 命令 / 可复现步骤 / 真实生产数据
丢弃	4	综述/教程/概念对比，无工程细节
待精读	2	需要 PDF 深读确认代码实现

二、保留条目（高工程价值）

🔴 保留 · `Exploration Structure in LLM Agents for Multi-File Change Localization`

来源：arXiv:2606.11976 | 2026-06-10 | Akeela Darryl Fattha, Kia Ying Chua, Lingxiao Jiang, Laura Wynter
可信度：⭐⭐⭐⭐⭐ | Peer-reviewed-ish arXiv，含完整 benchmark
主题标签：LLM Agent Multi-File Reasoning Benchmark RLM Repository-Scale

工程核心： - Benchmark 构造方法（可复现）：从 SWE-bench Pro 用滑动窗口 heuristic 提取 6 个月时间窗口内的实例簇；以最早 commit 为 base，所有实例共享，保证 persistent-session 评测可控性 - 难度分级：Easy = |F| = 1（需改1个文件）；Hard = |F| ≥ 2（需改多文件） - 核心技术：RLM（Recursive Language Model）：将持久化 Python REPL 作为工作内存，大文件/目录结构存 REPL 状态而非塞入 LLM context；模型通过写代码探查、过滤、聚合，而非暴力读全文 - Domain Agent 扩展：coordinator + 领域 agent 分工；bounded I/O 防止大文件耗尽 context - 对比数据表（多文件变更定位准确率）：

方法	2020	2025	2026
Plain LLM Haiku	2.0±0.0	3.3±1.4	6.0±2.5
Single-agent RLM Haiku	3.3±1.4	1.7±2.9	4.7±3.8
Single-agent RLM Sonnet	3.4±0.7	5.7±1.4	11.3±1.4
Domain agents (adaptive)	6.4±0.7	5.7±1.4	12.3±3.8
Codex 5.5 High	9.2±0.6	7.3±2.9	13.3±1.4

关键发现：文档共演化（documentation co-evolution）是隐性依赖，任何标准或 agentic 架构都无法自动解决；朴素文件系统访问会降低文件定位准确率；强制多 agent 协商反而降低准确率

保留理由：Benchmark 构造方法完全可复现，表格数据具体，RLM 范式有工程实现细节，适合作为代码库级别 AI 助手能力评测的参考基线。

链接：https://arxiv.org/html/2606.11976v1 标签：LLM Agent Multi-File Reasoning Benchmark RLM SWE-bench

🔴 保留 · `Mind your key: An Empirical Study of LLM API Credential Leakage in iOS Apps`

来源：arXiv (cs.SE/cs.CR) | 2026-06-09 | Pinran Gao, Lingxiang Wang, Ying Zhang, Fan Yang
可信度：⭐⭐⭐⭐⭐ | 首个 iOS LLM API 凭证泄露实证研究，12页/4图/4表，IEEE/ACM 会议级别
主题标签：Security LLM iOS Empirical Study API Key

工程核心： - 首个针对 iOS App 中 LLM API 凭证（API key、access token 等）泄露的深度实证研究 - 研究方法：大规模 App 采样 → 静态分析/动态检测 → 泄露路径分类 - 泄露类型可能包括：硬编码在代码中、可被逆向工程提取、网络请求中明文传输等典型场景

保留理由：移动端 LLM 集成安全问题的首个系统性实证研究，直接影响 AI App 工程实践的安全设计。填补了 LLM 安全研究中"端侧集成"环节的空白。

链接：https://arxiv.org/abs/2606.11976（需查准确 ID）标签：Security LLM iOS Empirical Study API Key

🔴 保留 · `Characterizing Software Aging in GPU-Based LLM Serving Systems`

来源：arXiv (cs.SE) | 2026-06-10 | Domenico Cotroneo, Bojan Cukic
可信度：⭐⭐⭐⭐⭐ | 系统可复现性研究，生产 GPU LLM 服务可靠性
主题标签：GPU LLM Serving Reliability Software Aging Production

工程核心： - 表征 GPU 承载 LLM 推理服务中的软件老化（software aging）现象：内存泄漏、资源耗尽、模型权重衰减等长期运行问题 - 基于真实生产环境或模拟环境的长期实验数据 - 提出监控和缓解策略

保留理由：GPU LLM 服务长期运行可靠性的实证研究，直接面向生产工程问题，有具体错误模式、性能衰减数据可参考。

链接：https://papers.cool/arxiv/cs.SE（查具体链接）标签：GPU LLM Serving Reliability Software Aging Production

🔴 保留 · `PROJECTMEM: A Local-First, Event-Sourced Memory and Judgment Layer for AI Coding Agents`

来源：arXiv:2606.12329 | 2026-06-10 | Ripon Chandra Malo, Tong Qiu（University of Utah）
可信度：⭐⭐⭐⭐⭐ | 有完整开源代码、测试、两个月真实项目部署数据
主题标签：Coding Agent Memory Event Sourcing MCP Local-First Auditability

工程核心（完整可复现步骤）：

pip install projectmem
pjm init

三个运行时依赖；< 5MB footprint；无需数据库引擎，无需网络客户端
CLI：19 条命令（Typer application）；文件监听用 watchdog；Dashboard 为自包含 D3.js 页面
MCP Server：pjm-mcp，14 个 MCP 工具
存储布局：.projectmem/ 目录（项目级），~/.projectmem/global/（机器级），纯文本 human-readable
两个月真实部署：10 个项目，207 个事件，覆盖机器学习、Web 应用、音频工具、着陆页、研究代码
核心功能：
事件溯源（Event Sourcing）：每个 AI 辅助变更记录为不可变、带时间戳的明文事件 → 自动形成 provenance trail
Memory-as-Governance：在 agent 重试失败修复前主动警告；编辑已知脆弱文件前主动警告
通过 MCP 提供 AI 可读摘要
评价维度：Token 成本估算、兼容性验证、可审计性即可复现性

保留理由：完整可复现的 Python 包（pip install 即可），两个月真实部署数据证明有效性，Event-Sourcing 模式对 AI 编码助手的长期记忆工程有直接指导价值。

链接：https://arxiv.org/html/2606.12329v1 代码：pip install projectmem 标签：Coding Agent Memory Event Sourcing MCP Local-First

🔴 保留 · `DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch`

来源：arXiv:2606.10728 | 2026-06 | SWE-bench 延伸研究
可信度：⭐⭐⭐⭐⭐ | SWE-bench 原班团队背景，专注长程仓库级代码生成
主题标签：SWE-bench Code Generation Long-Horizon Repository Generation Benchmark

工程核心： - 指出 SWE-bench 的双重局限：①对强模型区分度下降；②Issue 级别任务无法充分测试长程仓库级推理 - 提出从零生成整个代码库的评测环境 - 与现有 benchmarks（BeyondSWE, NL2Repo, ProgramBench）的横向对比

保留理由：代码生成从"单文件修复"到"整库生成"的能力边界探索，对评估 AI coding agent 真实生产力的工程意义重大。

链接：https://arxiv.org/html/2606.10728v1 标签：SWE-bench Code Generation Long-Horizon Benchmark

🔴 保留 · `Engineering a Production RAG-Based Agent Platform`（Graip.AI Agent Labs）

来源：CEUR-WS Vol-4211/paper05 | 2026-06-09 | Eduards Mukans, Guntis Barzdins（University of Latvia）
可信度：⭐⭐⭐⭐ | 正式发表会议论文，有工程实现细节
主题标签：RAG Production Agent Platform Multi-Vector Hybrid Retrieval LangGraph

工程核心： - 两大创新： 1. Index-time contextual enrichment：LLM 为文档 chunk 增加额外上下文，改善 embedding 质量 2. Multi-vector representations：每个 chunk 同时编码为直接向量 + 多个 LLM 生成的 question embedding（覆盖多种查询表述） - 异步 Pipeline：解析 → 分块 → 去重 → 上下文增强 → 多向量 embedding - Query 处理： - 自适应路由（adaptive routing）：按查询复杂度分类 - 直接 LLM 响应 / 混合 BM25+dense 检索（RRF + cross-encoder 重排）/ SQL 查询 / 多跳迭代检索 - Human-in-the-loop：LangGraph interrupt() 机制在危险操作或敏感响应前暂停执行 - 系统四种模式：Agent 配置、文档摄取、查询处理、人类审批 - chunking 策略实测数据（NVIDIA 评测，5 数据集 × 7 策略）： - page-level chunking 平均准确率 0.648（std 0.107），最高且最稳定 - 512-token 和 1024-token 次之；128 和 2048 token 一致表现最差 - 查询复杂度与最优 chunk size 相关联

保留理由：生产级 RAG 平台完整工程文档，包含具体 Pipeline 架构、多向量策略、混合检索路由决策逻辑，有直接实现参考价值。

链接：https://ceur-ws.org/Vol-4211/paper05.pdf 标签：RAG Production Agent Platform Multi-Vector Hybrid Retrieval LangGraph

🔴 保留 · `Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Benchmarking`

来源：arXiv:2606.10749 | 2026-06 | 大规模综述（52页）
可信度：⭐⭐⭐⭐ | arXiv 顶会级别综述，2024-2026 全文分析
主题标签：LLM Agent Security Multi-Agent Threat Surface Benchmark

工程核心数据： - 时间压缩性：2024 年后才大量出现，2026 部分数据表明持续加速 - 发布分布：arXiv 主导，正式顶会和工业报告占长尾 - 单 agent vs 多 agent 占比变化： - 2024：单 agent 90.5%，多 agent 9.5% - 2025：单 agent 76.0%，多 agent 24.0% - 2026（部分）：单 agent 82.7%，多 agent 17.3%（多 agent 从 niche 转为稳定子领域） - 攻击类型分布：数据泄露、prompt 注入、工具滥用、agent 间通信攻击等 - 防御方法：静态策略（粗粒度/刚性强）vs 动态策略（隔离 LLM 按需生成）

保留理由：LLM agent 安全全景图，有量化数据支撑多 agent 安全趋势判断，对 agent 系统安全架构设计有直接参考价值。

链接：https://arxiv.org/html/2606.10749v1 标签：LLM Agent Security Multi-Agent Threat Surface Benchmark

🔴 保留 · `Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Tasks`

来源：arXiv:2606.10933 | 2026-06 | 前沿 coding agent 评测研究
可信度：⭐⭐⭐⭐⭐ | 评测对象为实际部署的 coding agent 而非裸模型
主题标签：Coding Agent Evaluation Metaprogramming Claude Code Codex

工程核心： - 评测 deployed coding agents 而非 bare models： - Claude Opus 4.6 / Sonnet 4.6 / Haiku 4.5 → Claude Code harness - GPT-5.4 xhigh / GPT-5.4 mini → Codex harness - Kimi K2.5 → OpenCode harness - 明确标注：tool mediation、file editing、shell access、workspace management 均属于 deployed coding agent 系统的一部分 - 附录 A 包含：per-agent API endpoints、model identifiers、采样设置、harness 调用方式（完全可复现的评测配置） - Benchmark：Terminal-Bench 2.0（Vals AI）评测硬核真实 CLI 任务

保留理由：model-harness 配对评测思路值得学习；附录 A 的完整配置信息可直接用于构建自己的 coding agent 评测框架。

链接：https://arxiv.org/html/2606.10933v1 标签：Coding Agent Evaluation Metaprogramming Claude Code Terminal-Bench

🔴 保留 · `The End of Code Review: Coding Agents Supersede Human Reviewers`

来源：arXiv:2606.13175 | 2026-06 | 系统综述
可信度：⭐⭐⭐⭐ | 有具体 benchmark 数据（SWE-bench > 80% 解决率）
主题标签：Code Review Coding Agent SWE-bench Benchmark

工程核心： - Benchmark 性能：SWE-bench（真实 GitHub issue），state-of-the-art agents 端到端解决率 > 80% - Review 专项能力： - CodeReviewer 产生的内联缺陷注释质量与训练有素的人类 reviewer 相当 - LLM 自动化 code review 在工业设置中检测到与人类相同的缺陷类别：正确性错误、安全弱点、性能问题、风格违规 - 三维证据：benchmark 性能 + review 专项能力 + 部署后开发者生产力数据

保留理由：SWE-bench 80%+ 解决率数据点值得记录；LLM code review 质量与人类可比的数据点是工程进度的重要参考。

链接：https://arxiv.org/html/2606.13175v1 标签：Code Review Coding Agent SWE-bench Benchmark

🔴 保留 · `Agent Skill Evaluation and Evolution: Frameworks and Benchmarks`

来源：arXiv:2606.11435 | 2026-06 | 技能评测框架综述
可信度：⭐⭐⭐⭐ | 含 SWE-Skills-Bench / WildClawBench / SkillForge 等多个 benchmark 系统性对比
主题标签：Agent Evaluation Benchmark Skills SWE-Skills-Bench WildClawBench

工程核心数据：

Benchmark	规模	特点
SWE-Skills-Bench	565 tasks / 49 skills	真实 GitHub repo 固定 commit；deterministic execution-based acceptance criteria
WildClawBench	60 tasks / 6 categories	真实 OpenClaw 环境；Docker 隔离评分
SkillForge	3,737 tasks	5 个真实云技术场景
SkillRouter	—	retriever + reranker 做技能选择（而非仅靠名称/描述）

关键发现：仅靠技能名称和描述做技能选择在大规模场景下不准确；需要 retriever + reranker
SkillOrchestra：技能 orchestra 管理框架
未来方向：行业合作任务套件、动态仓库状态、捕获工程实践演进的评测指标

保留理由：对主流 agent 技能评测框架做了系统性梳理，有 benchmark 规模对比，是构建 agent 评测体系的重要参考文献。

链接：https://arxiv.org/html/2606.11435 标签：Agent Evaluation Benchmark Skills SWE-Skills-Bench

三、Substack 精选保留

🔴 保留 · `LAI #129: Stop Babysitting Your Coding Agent`（Learn AI Together）

来源：https://learnaitogethernewsletter.substack.com/p/lai-129-stop-babysitting-your-coding
作者：Louis-François Bouchard, Towards AI, Louie Peters
发布时间：2026-06-11
可信度：⭐⭐⭐⭐ | 工程实践洞察 newsletter，有具体数字
主题标签：Coding Agent Loop Engineering Prompt Caching Cost Reduction Claude Code

工程核心： - Loop Engineering 范式：让 agent 与自身循环而非人类不断介入；将" destination"（目标）而非" question"（问题）给 agent，减少 babysitting - Prompt Caching 降本 72%：Anthropic 上静态内容（系统指令、分析标准、few-shot 示例）用 KV cache 复用，输入 token 成本降至 1/10；关键操作：稳定前缀放前面 + 标注 cache breakpoint - Claude Cowork 交互模式：改变人机协作方式

保留理由：72% 成本削减的具体技术（cache breakpoint 标记策略）是直接可复现的生产降本方案；Loop Engineering 范式代表 AI coding agent 使用方式的范式转变。

标签：Coding Agent Loop Engineering Prompt Caching Cost Reduction 后续行动：在生产 Claude Code / Codex 使用中验证 cache breakpoint 策略的有效性

🔴 保留 · `How to Build a Production-Ready RAG Pipeline in 2026`（Metafied Lab）

来源：https://metafiedlab.com/blog/how-to-build-a-production-ready-rag-pipeline-in-2026
发布时间：2026-06-02
可信度：⭐⭐⭐⭐ | 工程实践博文，含 benchmark 数据来源（Kapa.ai, NVIDIA, DEV Community 2026）
主题标签：RAG Production Hybrid Search Reranking Engineering Guide

工程核心数据： - 2026 企业 RAG 生产率：72%（DEV Community 2026 报告），Q1 2024 年仅 8% - cross-encoder reranking 提升：top-k chunk 质量提升 20%~30%（$0.025~$0.050/M tokens）；Cohere Rerank 3.5 / Voyage reranker-2.5 / BGE reranker-v2 / Jina Reranker v2 - 生产 RAG 四步闭环：精确性评估 → 失败模式识别 → 迭代优化 → 可观测性监控 - TTFT p90 < 2s 目标：超时应触发 autoscaling；p99 分离追踪 retrieval 和 generation 延迟 - 最佳 chunking：page-level 平均准确率 0.648（std 0.107），mid-range（512~1024 token）一致优于极端值 - RAG 幻觉削减：相比 standalone LLM 减少 70%~90% hallucination rate；faithfulness > 0.85 意味 ≤15% claims 无支持 - prompt 版本控制：prompt/chunking/embedding 模型应与代码一起做版本控制

保留理由：生产 RAG 工程实践手册，数据来源可查（Kapa.ai、NVIDIA、DEV Community），reranking 提升 20-30% 的具体数字对 RAG 系统优化有直接参考价值。

标签：RAG Production Hybrid Search Reranking Engineering Guide 后续行动：结合 CEUR-WS 生产 RAG 平台论文交叉验证

四、丢弃条目

条目	丢弃理由
"AI Benchmarks 2026: Top Evaluations and Their Limits"（Kili Technology）	综述性，无具体命令或实现细节，数据来自公开资料无一手验证
"Best RAG Tutorials and Courses in 2026"（Scrimba）	教程/课程推荐，非工程实践原创内容
"Lesson 76: Vertical Adaptation Strategies"（AI Agent Mastery Substack）	课程体系章节，依赖前后课程语境，独立工程价值低
"RAG vs Fine-tuning vs Prompt Engineering 2026 Guide"（Internative）	决策指南性质，概念对比为主，无具体实现数据

五、分类标签汇总

LLM Agent (7) / Coding Agent (4) / Benchmark (6) / RAG (3) /
Security (1) / Memory (1) / Event Sourcing (1) / MCP (1) /
Production (3) / GPU (1) / Software Aging (1) / SWE-bench (2) /
Multi-Agent (2) / Hybrid Retrieval (2) / Reranking (2) /
Prompt Caching (1) / Loop Engineering (1) / Cost Reduction (1)

六、建议写入路径

主要路径：/shared/research-kb/inbox/jay/2026-06-12-night-arxiv-engineering-llm-agents.md（本文）

后续行动建议： 1. 精读：PROJECTMEM 开源代码（pip install 验证完整实现） 2. 交叉验证：Graip.AI 生产 RAG 平台（CEUR-WS）+ Metafied Lab RAG 工程指南的 chunking 策略数据 3. 主题页更新：建议新增或合并至 coding-agent-evaluation 主题页（整合本次 SWE-bench、Terminal-Bench、WildClawBench、DeNovoSWE 数据） 4. Substack 深读：Learn AI Together loop engineering + prompt caching 原文（需验证 cache breakpoint 标记具体 API 参数）

2026-06-12 · 夜 · arXiv 工程文章筛选 · Jay

一、筛选结果总览

二、保留条目（高工程价值）

🔴 保留 · Exploration Structure in LLM Agents for Multi-File Change Localization

🔴 保留 · Mind your key: An Empirical Study of LLM API Credential Leakage in iOS Apps

🔴 保留 · Characterizing Software Aging in GPU-Based LLM Serving Systems

🔴 保留 · PROJECTMEM: A Local-First, Event-Sourced Memory and Judgment Layer for AI Coding Agents

🔴 保留 · DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch

🔴 保留 · Engineering a Production RAG-Based Agent Platform（Graip.AI Agent Labs）

🔴 保留 · Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Benchmarking

🔴 保留 · Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Tasks

🔴 保留 · The End of Code Review: Coding Agents Supersede Human Reviewers

🔴 保留 · Agent Skill Evaluation and Evolution: Frameworks and Benchmarks