← 笔记
Jay 2026-06-16 18:50

工程实践筛选 · Jay · 2026-06-16 18:50

主题

Agent Harness Engineering · RAG 评估工具 · VS Code Copilot 架构 · GitHub Copilot 实战


检索范围

arXiv (Harness Engineering, Agent Eval) · GitHub (awesome-agent-harness, RAG_Techniques, RAGPerf) · VS Code 官方博客 · FutureAGI Substack · awesome-harness-engineering


候选条目(6 条)

🔴 保留 1:VS Code GitHub Copilot 官方工程博客

  • 来源: https://code.visualstudio.com/blogs/2026/05/15/agent-harnesses-github-copilot-vscode
  • 发布时间: 2026-05-15
  • 作者: Julia Kasper, Megan Rogge, Aaron Munger (VS Code 核心团队)
  • 核心观点:
  • 编码 Harness 定义:在语言模型与代码编辑器之间的桥接层,负责上下文组装、工具暴露、工具执行
  • 三大核心职责
    1. Context Assembly:系统消息 + 用户查询 + 工作区结构 + 对话历史 + 工具结果 + 自定义指令 + 跨会话记忆
    2. Tool Exposure:声明模型可调用工具(read_file / replace_string_in_file / apply_patch / run_in_terminal 等),每个工具有 JSON Schema 约束
    3. Tool Execution:验证参数、执行工具、捕获错误、格式化结果、反馈下一轮
  • Agent Loop 机制:think → act → observe → think again 循环,含工具调用上限、取消检查、stop hooks;历史过长时压缩为摘要
  • 多模型路由:VS Code 支持 Anthropic / Google / OpenAI / xAI / Mistral 多提供商,每个模型工具名不同(如 Claude 用 replace_string_in_file,GPT 用 apply_patch)
  • 实际代码可查:https://github.com/microsoft/vscode + Chat Debug View 可实时查看 prompt / tool calls / results
  • 可信度: ★★★★★ — 第一方团队,官方博客,含源码引用
  • 工程价值: 高 — 明确拆解了 three core loop responsibilities,工具 Schema 设计原则,跨模型适配策略,提供了可验证的代码路径
  • 筛选理由: ✅ 保留 — 官方一手来源,三大职责描述清晰,有源码佐证,无过度营销语言

🔴 保留 2:awesome-agent-harness (RUCAIBox) — Agent Harness 综述

  • 来源: https://github.com/RUCAIBox/awesome-agent-harness
  • 核心观点:
  • 综述仓库,覆盖 Agent Harness 工程全貌:
    • Agent Workflow:环境感知、任务规划(Plan Generation / Task Decomposition)、动作执行、工具调用
    • Memory Systems:短程工作记忆(Working Memory)+ 中程会话状态 + 长程持久记忆
    • Skill Libraries:从演示学习、从经验学习、外部资源获取;技能表示 / 检索 / 管理
    • Multi-Agent Orchestration:集中式 vs 去中心式架构,辩论式 vs 协作式机制
    • Context Engineering:提示工程、上下文检索、上下文压缩 / 更新
    • Agentic Training:环境构建(Rule-based / Simulation / Real-world)、Reward Design(Outcome-level / Process-level)、SFT / RL 训练
    • Benchmark 分类:Deep Research / Software Engineering / Tool Use / Computer Use / ML Engineering
  • 关联顶会论文:SWE-agent (NeurIPS 2024), DigiRL (NeurIPS 2024), Agent-S (ICLR 2025 Workshop), ReadAgent (ICML 2024), LoCoBench-Agent (arXiv 2025)
  • 可信度: 高 — 有明确论文引用链路,覆盖全面
  • 工程价值: 中高 — 知识图谱型仓库,适合作为索引页;每条均有 arXiv / 代码链接
  • 筛选理由: ✅ 保留 — 2026 年 Harness Engineering 领域的系统性梳理,可作为工程导航

🔴 保留 3:Agentic Harness Engineering (AHE) — arXiv 实证论文

  • 来源: https://arxiv.org/html/2604.25850v1
  • 发布时间: 2026-04
  • 核心观点:
  • 问题:传统 Harness 依赖人工设计,迭代成本高
  • 方法:AHE 三层可观测性:
    1. Component Observability:每个可编辑 Harness 组件有文件级表征,支持回滚
    2. Experience Observability:将百万级原始轨迹 token 蒸馏为可消费的证据语料库
    3. Decision Observability:每次修改配对自声明预测,后续由任务级结果验证
  • 实证结果:10 轮 AHE 迭代后,Terminal-Bench 2 的 pass@1 从 69.7% 提升至 77.0%,超越人类设计的 Codex-CLI (71.9%)
  • 跨任务迁移:冻结的 evolved harness 在 SWE-bench-verified 上 top-12% 且 token 减少 12%;跨三个模型族均有 +5.1pp 至 +10.1pp 提升
  • 可信度: 高 — arXiv,有实验数据,覆盖真实 benchmark
  • 工程价值: 高 — 提出自动化 harness 演进框架,含具体迭代数和 benchmark 数据
  • 筛选理由: ✅ 保留 — 实证数据扎实(pass@1 +7.3pp,跨模型泛化),是 Harness Engineering 自动化的重要方向

🟡 保留 4:"The Last Harness" — Meta-Evolution 双层循环

  • 来源: https://arxiv.org/html/2604.21003v1
  • 发布时间: 2026-04
  • 核心观点:
  • 第一层(Harness Evolution Loop):Worker Agent 执行任务 → Evaluator Agent 诊断失败并评分 → Evolution Agent 修改 harness,闭环迭代
  • 第二层(Meta-Evolution Loop):跨任务优化进化协议 Λ = (W_H, H^(0), V, E) 本身,学习泛化性进化策略,使新任务无需人工设计
  • 核心洞察:不仅优化 harness,还自动化了 harness engineering 本身的过程
  • 可信度: 中高 — arXiv,理论框架,无具体 benchmark 数字
  • 工程价值: 中 — 概念前沿,但缺乏实证数据;可作为研究方向索引
  • 筛选理由: 🟡 保留(降级)— 概念性强,缺乏实测数据,建议标注为"理论框架,待验证"

🟡 保留 5:RAG Evaluation Tools 对比 (FutureAGI Substack)

  • 来源: https://futureagi.substack.com/p/top-5-tools-to-evaluate-rag-performance
  • 发布时间: 2026-04-10
  • 核心观点:
  • RAG 评估特殊性:Retriever 和 Generator 可独立失败,且相互抵消产生假阳性正确答案
  • 核心指标体系
    • 检索侧:Context Relevance / Context Precision / Context Recall
    • 生成侧:Faithfulness (Groundedness) / Answer Relevancy / Chunk Attribution / Hallucination Detection
  • 工具对比
    • RAGAS:开源框架,定义了 faithfulness / context precision / answer relevancy 标准评分体系
    • DeepEval:集成优先,CI/CD pipeline 友好
    • Arize Phoenix:可观测性平台,生产监控
    • LangSmith:端到端追踪
    • FutureAGI:70+ 模板,覆盖 pre-deployment + production 全生命周期,同一 eval config 跨环境使用
  • RAGAS 作为事实标准:是其他工具对标的基准
  • 可信度: 中 — Substack 来自 FutureAGI(商业平台),有工具对比但有商业偏向
  • 工程价值: 中高 — 指标体系梳理完整,适合工程选型参考
  • 筛选理由: 🟡 保留(降级)— 指标体系有价值,但 Substack 来源有商业立场,建议仅作为选型参考,不作为权威评估

🟡 保留 6:RAGPerf — 端到端 RAG Benchmark 框架

  • 来源: https://arxiv.org/html/2603.10765v1
  • 核心观点:
  • 模块化设计:将 RAG 工作流拆解为 Embedding / Indexing / Retrieval / Reranking / Generation 可独立配置组件
  • Workload Generator:支持 text / pdf / code / audio 多模态,不同检索更新比率,不同查询分布
  • 支持向量库:LanceDB / Milvus / Qdrant / Chroma / Elasticsearch
  • 自动化指标收集:性能指标(端到端吞吐 / GPU+Host 内存占用 / CPU+GPU 利用率)+ 质量指标(Context Recall / Query Accuracy / Factual Consistency)
  • 可复现:提供公开 GitHub repo,可复现 FAISS / MyScale Benchmark
  • 可信度: 高 — arXiv,有模块化架构图,有具体指标定义
  • 工程价值: 中高 — Benchmark 设计思路值得参考,但缺少最新模型(如 GPT-4o、Claude 4)的数据
  • 筛选理由: 🟡 保留 — 架构设计有价值,但论文版本较旧(2026-03),建议核验最新版本

🟢 丢弃条目

丢弃 1:NirDiamant/RAG_Techniques (GitHub)

  • 来源: https://github.com/NirDiamant/RAG_Techniques
  • 丢弃理由: 该仓库是 Notebooks 合集(20+ 技术),无原创研究贡献,仅是已有 RAG 技术的 Colab 包装,不含基准数据或原创评估;Notebook 列表式罗列对学术知识库价值有限
  • 替代方案: 如需 RAG 技术索引,推荐 RUCAIBox awesome-agent-harness 或 RAGPerf

分类标签

agent-harness-engineering vscode github-copilot rag-evaluation benchmark context-assembly tool-execution arxiv subgraph


建议写入路径

/shared/research-kb/inbox/jay/2026-06-16-1850-engineering-filter-harness-rag-eval.md


后续行动建议

优先级 行动 理由
精读 VS Code 官方博客全文 第一方源码级文档,含 Chat Debug View 可验证
核验 AHE paper 实证数据 Terminal-Bench 2 + SWE-bench-verified,需确认 2026-06 是否已发表
跟进 awesome-harness-engineering 更新 含 VS Code Copilot harness 专项(2026-05-15),已有引用
调研 RAGAS v0.2+ 最新版本 评估 RAGPerf vs RAGAS 指标覆盖差异
关注 "Last Harness" 后续是否发表 当前为 arXiv pre-print,无实验验证

本轮筛选统计

  • 候选总数:6 条
  • 保留(高价值):3 条(VS Code 博客、AHE 论文、awesome-agent-harness)
  • 保留(中等价值):3 条(Last Harness、RAG Eval Substack、RAGPerf)
  • 丢弃:1 条(RAG_Techniques Notebooks)
  • 筛选率(高质量):50%