工程实践筛选 · Jay · 2026-06-16 18:50
主题
Agent Harness Engineering · RAG 评估工具 · VS Code Copilot 架构 · GitHub Copilot 实战
检索范围
arXiv (Harness Engineering, Agent Eval) · GitHub (awesome-agent-harness, RAG_Techniques, RAGPerf) · VS Code 官方博客 · FutureAGI Substack · awesome-harness-engineering
候选条目(6 条)
🔴 保留 1:VS Code GitHub Copilot 官方工程博客
- 来源: https://code.visualstudio.com/blogs/2026/05/15/agent-harnesses-github-copilot-vscode
- 发布时间: 2026-05-15
- 作者: Julia Kasper, Megan Rogge, Aaron Munger (VS Code 核心团队)
- 核心观点:
- 编码 Harness 定义:在语言模型与代码编辑器之间的桥接层,负责上下文组装、工具暴露、工具执行
- 三大核心职责:
- Context Assembly:系统消息 + 用户查询 + 工作区结构 + 对话历史 + 工具结果 + 自定义指令 + 跨会话记忆
- Tool Exposure:声明模型可调用工具(read_file / replace_string_in_file / apply_patch / run_in_terminal 等),每个工具有 JSON Schema 约束
- Tool Execution:验证参数、执行工具、捕获错误、格式化结果、反馈下一轮
- Agent Loop 机制:think → act → observe → think again 循环,含工具调用上限、取消检查、stop hooks;历史过长时压缩为摘要
- 多模型路由:VS Code 支持 Anthropic / Google / OpenAI / xAI / Mistral 多提供商,每个模型工具名不同(如 Claude 用 replace_string_in_file,GPT 用 apply_patch)
- 实际代码可查:https://github.com/microsoft/vscode + Chat Debug View 可实时查看 prompt / tool calls / results
- 可信度: ★★★★★ — 第一方团队,官方博客,含源码引用
- 工程价值: 高 — 明确拆解了 three core loop responsibilities,工具 Schema 设计原则,跨模型适配策略,提供了可验证的代码路径
- 筛选理由: ✅ 保留 — 官方一手来源,三大职责描述清晰,有源码佐证,无过度营销语言
🔴 保留 2:awesome-agent-harness (RUCAIBox) — Agent Harness 综述
- 来源: https://github.com/RUCAIBox/awesome-agent-harness
- 核心观点:
- 综述仓库,覆盖 Agent Harness 工程全貌:
- Agent Workflow:环境感知、任务规划(Plan Generation / Task Decomposition)、动作执行、工具调用
- Memory Systems:短程工作记忆(Working Memory)+ 中程会话状态 + 长程持久记忆
- Skill Libraries:从演示学习、从经验学习、外部资源获取;技能表示 / 检索 / 管理
- Multi-Agent Orchestration:集中式 vs 去中心式架构,辩论式 vs 协作式机制
- Context Engineering:提示工程、上下文检索、上下文压缩 / 更新
- Agentic Training:环境构建(Rule-based / Simulation / Real-world)、Reward Design(Outcome-level / Process-level)、SFT / RL 训练
- Benchmark 分类:Deep Research / Software Engineering / Tool Use / Computer Use / ML Engineering
- 关联顶会论文:SWE-agent (NeurIPS 2024), DigiRL (NeurIPS 2024), Agent-S (ICLR 2025 Workshop), ReadAgent (ICML 2024), LoCoBench-Agent (arXiv 2025)
- 可信度: 高 — 有明确论文引用链路,覆盖全面
- 工程价值: 中高 — 知识图谱型仓库,适合作为索引页;每条均有 arXiv / 代码链接
- 筛选理由: ✅ 保留 — 2026 年 Harness Engineering 领域的系统性梳理,可作为工程导航
🔴 保留 3:Agentic Harness Engineering (AHE) — arXiv 实证论文
- 来源: https://arxiv.org/html/2604.25850v1
- 发布时间: 2026-04
- 核心观点:
- 问题:传统 Harness 依赖人工设计,迭代成本高
- 方法:AHE 三层可观测性:
- Component Observability:每个可编辑 Harness 组件有文件级表征,支持回滚
- Experience Observability:将百万级原始轨迹 token 蒸馏为可消费的证据语料库
- Decision Observability:每次修改配对自声明预测,后续由任务级结果验证
- 实证结果:10 轮 AHE 迭代后,Terminal-Bench 2 的 pass@1 从 69.7% 提升至 77.0%,超越人类设计的 Codex-CLI (71.9%)
- 跨任务迁移:冻结的 evolved harness 在 SWE-bench-verified 上 top-12% 且 token 减少 12%;跨三个模型族均有 +5.1pp 至 +10.1pp 提升
- 可信度: 高 — arXiv,有实验数据,覆盖真实 benchmark
- 工程价值: 高 — 提出自动化 harness 演进框架,含具体迭代数和 benchmark 数据
- 筛选理由: ✅ 保留 — 实证数据扎实(pass@1 +7.3pp,跨模型泛化),是 Harness Engineering 自动化的重要方向
🟡 保留 4:"The Last Harness" — Meta-Evolution 双层循环
- 来源: https://arxiv.org/html/2604.21003v1
- 发布时间: 2026-04
- 核心观点:
- 第一层(Harness Evolution Loop):Worker Agent 执行任务 → Evaluator Agent 诊断失败并评分 → Evolution Agent 修改 harness,闭环迭代
- 第二层(Meta-Evolution Loop):跨任务优化进化协议 Λ = (W_H, H^(0), V, E) 本身,学习泛化性进化策略,使新任务无需人工设计
- 核心洞察:不仅优化 harness,还自动化了 harness engineering 本身的过程
- 可信度: 中高 — arXiv,理论框架,无具体 benchmark 数字
- 工程价值: 中 — 概念前沿,但缺乏实证数据;可作为研究方向索引
- 筛选理由: 🟡 保留(降级)— 概念性强,缺乏实测数据,建议标注为"理论框架,待验证"
🟡 保留 5:RAG Evaluation Tools 对比 (FutureAGI Substack)
- 来源: https://futureagi.substack.com/p/top-5-tools-to-evaluate-rag-performance
- 发布时间: 2026-04-10
- 核心观点:
- RAG 评估特殊性:Retriever 和 Generator 可独立失败,且相互抵消产生假阳性正确答案
- 核心指标体系:
- 检索侧:Context Relevance / Context Precision / Context Recall
- 生成侧:Faithfulness (Groundedness) / Answer Relevancy / Chunk Attribution / Hallucination Detection
- 工具对比:
- RAGAS:开源框架,定义了 faithfulness / context precision / answer relevancy 标准评分体系
- DeepEval:集成优先,CI/CD pipeline 友好
- Arize Phoenix:可观测性平台,生产监控
- LangSmith:端到端追踪
- FutureAGI:70+ 模板,覆盖 pre-deployment + production 全生命周期,同一 eval config 跨环境使用
- RAGAS 作为事实标准:是其他工具对标的基准
- 可信度: 中 — Substack 来自 FutureAGI(商业平台),有工具对比但有商业偏向
- 工程价值: 中高 — 指标体系梳理完整,适合工程选型参考
- 筛选理由: 🟡 保留(降级)— 指标体系有价值,但 Substack 来源有商业立场,建议仅作为选型参考,不作为权威评估
🟡 保留 6:RAGPerf — 端到端 RAG Benchmark 框架
- 来源: https://arxiv.org/html/2603.10765v1
- 核心观点:
- 模块化设计:将 RAG 工作流拆解为 Embedding / Indexing / Retrieval / Reranking / Generation 可独立配置组件
- Workload Generator:支持 text / pdf / code / audio 多模态,不同检索更新比率,不同查询分布
- 支持向量库:LanceDB / Milvus / Qdrant / Chroma / Elasticsearch
- 自动化指标收集:性能指标(端到端吞吐 / GPU+Host 内存占用 / CPU+GPU 利用率)+ 质量指标(Context Recall / Query Accuracy / Factual Consistency)
- 可复现:提供公开 GitHub repo,可复现 FAISS / MyScale Benchmark
- 可信度: 高 — arXiv,有模块化架构图,有具体指标定义
- 工程价值: 中高 — Benchmark 设计思路值得参考,但缺少最新模型(如 GPT-4o、Claude 4)的数据
- 筛选理由: 🟡 保留 — 架构设计有价值,但论文版本较旧(2026-03),建议核验最新版本
🟢 丢弃条目
丢弃 1:NirDiamant/RAG_Techniques (GitHub)
- 来源: https://github.com/NirDiamant/RAG_Techniques
- 丢弃理由: 该仓库是 Notebooks 合集(20+ 技术),无原创研究贡献,仅是已有 RAG 技术的 Colab 包装,不含基准数据或原创评估;Notebook 列表式罗列对学术知识库价值有限
- 替代方案: 如需 RAG 技术索引,推荐 RUCAIBox awesome-agent-harness 或 RAGPerf
分类标签
agent-harness-engineering vscode github-copilot rag-evaluation benchmark context-assembly tool-execution arxiv subgraph
建议写入路径
/shared/research-kb/inbox/jay/2026-06-16-1850-engineering-filter-harness-rag-eval.md
后续行动建议
| 优先级 | 行动 | 理由 |
|---|---|---|
| 高 | 精读 VS Code 官方博客全文 | 第一方源码级文档,含 Chat Debug View 可验证 |
| 高 | 核验 AHE paper 实证数据 | Terminal-Bench 2 + SWE-bench-verified,需确认 2026-06 是否已发表 |
| 中 | 跟进 awesome-harness-engineering 更新 | 含 VS Code Copilot harness 专项(2026-05-15),已有引用 |
| 中 | 调研 RAGAS v0.2+ 最新版本 | 评估 RAGPerf vs RAGAS 指标覆盖差异 |
| 低 | 关注 "Last Harness" 后续是否发表 | 当前为 arXiv pre-print,无实验验证 |
本轮筛选统计
- 候选总数:6 条
- 保留(高价值):3 条(VS Code 博客、AHE 论文、awesome-agent-harness)
- 保留(中等价值):3 条(Last Harness、RAG Eval Substack、RAGPerf)
- 丢弃:1 条(RAG_Techniques Notebooks)
- 筛选率(高质量):50%