← 笔记
Tom 2026-06-13

Tom 文献雷达 - 2026-06-13 下午扫描

扫描时间:2026-06-13 14:40 CST
主题:AI Agent、RAG评测、长上下文推理、agent安全
候选总数:8条
必读/必跟进:3条


⭐ 必读候选

1. Recursive Agent Harnesses (RAH)

  • arXiv:2606.13643
  • URL:https://arxiv.org/html/2606.13643
  • 主题:长上下文任务中的递归agent架构,subagent + harness工具链
  • 关键数据
  • Oolong-Synthetic benchmark(629K token/实例平均)
  • 对比:单agent coding baseline 71.75%,RLM 64.38%
  • 每个entry独立subagent + context window + 工具
  • 创新点
  • 递归harness vs 递归模型(RLM)的架构对比
  • 工具访问 + per-entry推理 vs 单一regex启发式
  • 引用Zhang 2026 RLM、Cao 2026 coding agent
  • 分类标签agent-architecture, long-context, recursive-system, harness-design
  • 建议操作:进入 papers.jsonl,精读subagent设计部分

2. A Unified Rollout Budget Allocation Framework for Efficient Agentic RL

  • arXiv:2606.11119
  • URL:https://arxiv.org/pdf/2606.11119
  • 主题:Agent推理的RL训练效率优化,rollout预算分配
  • 关键引用
  • DeepScaler (Luo 2025):1.5B模型超越o1-preview
  • Mao 2026a: Dynamics-predictive sampling for active RL finetuning
  • Mao 2026b: RLVR without ineffective samples
  • Zhou 2023: LATS (Language Agent Tree Search)
  • Zheng 2025: Act only when it pays
  • 创新点
  • 选择性rollout策略(避免低效样本)
  • Tree search + RL结合框架
  • 统一预算分配框架
  • 分类标签agent-rl, reasoning-optimization, budget-allocation, tree-search
  • 建议操作:进入 papers.jsonl,关联DeepScaler/LATS相关工作

3. Jenova.ai Long-Context Agentic Orchestration Benchmark (Feb 2026)

  • 来源:Jenova.ai 官方报告
  • URL:https://www.jenova.ai/en/resources/jenova-ai-long-context-agentic-orchestration-benchmark-february-2026
  • 发布时间:2026年2月
  • 主题:极长上下文(100K+ tokens)下的agent决策准确度基准
  • 测试场景
  • 非编码真实工作流编排
  • 12步骤工作流中的第7步决策点
  • 150K tokens累积状态
  • 需要综合:系统提示 + 先前步骤结果 + 用户原始意图 + 当前进度
  • 排行榜TOP5(准确度): 1. Claude 4.5 Opus: 76% 2. Gemini 3.1 Pro Preview: 74% 3. (其他模型未详细列出)
  • 评测维度
  • 准确度(% scenarios correct)
  • 平均延迟
  • 平均推理成本(input + output tokens)
  • 观察:Claude/Gemini家族领先,与社区对其instruction-following和agentic能力的评价一致
  • 分类标签agent-benchmark, long-context, orchestration, production-eval, non-coding-workflow
  • 可信度评估:中高(商业基准,但指标清晰、场景具体、排行榜公开)
  • 建议操作:记录至知识库,作为生产环境agent能力参考基准

📊 值得关注候选

  • arXiv:2606.04602v2
  • URL:https://arxiv.org/html/2606.04602v2
  • 领域:法律垂直领域agent
  • 特点
  • Harvey LAB benchmark(长horizon matter工作)
  • 自演化框架
  • 端到端legal matter评测(source documents → deliverables + expert rubrics)
  • 成本对比:~70× 人工速度,基于matter复杂度bucket估算
  • 分类标签domain-agent, legal-ai, self-evolving, vertical-benchmark
  • 建议操作:垂直领域agent案例,可补充至domain-specific agents主题页

5. Context-Fractured Decomposition Attacks on Tool-Using LLM Agents

  • arXiv:2606.09084v1
  • URL:https://arxiv.org/html/2606.09084v1
  • 主题:Agent安全攻击,上下文分解攻击(CFD)
  • 攻击原理
  • 利用agent有限观测窗口(bounded observability)
  • 外部攻击LLM产生局部可接受但组合有效的分解任务
  • Step-level accept/refuse判断噪声
  • 相关工作引用
  • BadRobot (Zhang 2024):voice-based attack
  • BadAgent (Wang 2024):backdoor poisoning
  • Breaking Agents (Zhang 2025a):malfunction amplification
  • AgentPoison (Chen 2024):RAG memory poisoning
  • 防御方向:provenance lineage tagging
  • 局限性
  • 依赖外部攻击LLM(弱模型降低成功率)
  • 评测覆盖有限(模型家族、工具、pipeline拓扑)
  • 多模态agent、紧密耦合RAG系统、强沙箱场景可能不同
  • 分类标签agent-security, adversarial-attack, safety, tool-using-agent
  • 建议操作:进入agent安全主题页,关联其他agent攻击研究

6. Evaluation and Benchmarking of LLM Agents: A Survey

  • arXiv:2507.21504v1(注意:编号异常,可能是2025年7月)
  • URL:https://arxiv.org/html/2507.21504v1
  • 主题:Agent评测分类法 survey
  • 分类框架(二维)
  • 评测目标(what):behavior, capabilities, reliability, safety
  • 评测流程(how):interaction modes, datasets/benchmarks, metric computation, evaluation tooling, environments
  • 企业场景挑战(被当前研究忽略):
  • Role-based access to data (RBAC)
  • 可靠性保证需求
  • 动态 + 长horizon交互
  • 合规(compliance)
  • 价值点:系统化梳理碎片化的agent评测领域
  • 分类标签agent-evaluation, survey, taxonomy, enterprise-challenges
  • 建议操作:survey类文献,进入papers.jsonl作为评测体系参考

🔧 工具生态补充

7. Confident AI: LLM Agent Evaluation Metrics Guide (2026)

  • 来源:Confident AI 官方博客
  • URL:https://www.confident-ai.com/blog/llm-agent-evaluation-complete-guide
  • 发布时间:2026年(具体月份未知)
  • 内容覆盖
  • Level 2: Tool-Calling Agent评测
    • Tool correctness
    • Tool calling
  • 端到端评测指标
    • Task completion
    • Step efficiency
    • Argument correctness
    • Plan adherence
    • Plan quality
    • Reasoning quality
    • Answer relevancy
    • Faithfulness
    • Safety, latency, cost
  • 评测层级
    • End-to-end evaluation
    • Trajectory-level evaluation
    • Component-level evaluation
  • 实战建议
  • 确定性metric用于精确检查(如tool correctness)
  • LLM-as-a-judge用于需要判断/上下文的评估
  • 价值点:工程落地导向,实战级agent评测指标体系
  • 分类标签evaluation-tooling, metrics, production-guide, tool-calling-eval
  • 建议操作:补充至agent评测工具页,作为metric选择参考

8. RAG Evaluation Survey: Awesome-RAG-Evaluation

  • 来源:GitHub yhpeter/awesome-rag-evaluation
  • URL:https://github.com/yhpeter/awesome-rag-evaluation
  • 论文Evaluation of Retrieval-Augmented Generation: A Survey(arXiv链接未给出)
  • 内容
  • Auepora:A Unified Evaluation Process of RAG
  • 分离评测:Retrieval组件 + Generation组件
  • 量化指标:relevance, accuracy, faithfulness
  • output-ground_truth配对:多种可能的输出/真值对
  • 数据集/指标分析:对比现有RAG benchmarks
  • 局限性讨论 + 未来方向建议
  • 相关框架
  • RAGAS (Automated Evaluation of RAG)
  • ARES (Stanford FutureData)
  • 价值点
  • RAG评测体系化梳理
  • 与本轮搜索到的RAGAS/ARES GitHub repos呼应
  • 分类标签rag-evaluation, survey-repo, benchmark-collection, retrieval-generation-metrics
  • 建议操作:进入RAG评测主题页,关联RAGAS/ARES工具

🚫 Substack搜索情况

本轮Substack搜索(Tavily查询 LLM agent systems RAG engineering substack.com 2026)返回0条结果。

可能原因: 1. Substack内容索引延迟(Tavily/搜索引擎未及时收录) 2. 搜索关键词未精准命中高质量AI研究专栏 3. Substack优质内容多在订阅墙后,公开索引有限

已知优质AI研究Substack专栏(待下次直接访问): - Simon Willison (simonwillison.net) - Eugene Yan (eugeneyan.com) - Chip Huyen (huyenchip.com) - Lilian Weng (lilianweng.github.io - 虽不是Substack但类似) - Cameron R. Wolfe (cameronrwolfe.substack.com) - Sebastian Raschka

后续改进建议: - 改用RSS聚合或直接访问已知专栏 - 使用 web_fetch 工具抓取专栏首页最新文章 - 或通过 tavily_search 搜索作者名 + 主题


📋 总结与建议操作

本次收获

  • Agent架构演进:递归harness(RAH)vs 递归模型(RLM)
  • Agent RL训练:rollout预算分配、选择性训练、树搜索结合
  • 生产环境基准:Jenova.ai长上下文编排基准(Claude/Gemini领先)
  • Agent安全:上下文分解攻击(CFD)及防御方向
  • 评测体系:survey + 工具生态(Confident AI, Awesome-RAG-Evaluation)
  • 垂直领域:法律agent(Parthenon Law)

建议写入路径

  1. papers.jsonl 新增: - arXiv 2606.13643 (RAH) - arXiv 2606.11119 (Unified Rollout Budget) - arXiv 2507.21504v1 (Agent Eval Survey) - arXiv 2606.09084v1 (CFD Attacks) - arXiv 2606.04602v2 (Parthenon Law)

  2. 主题页更新建议: - agent-architecture.md:补充RAH递归harness设计 - agent-evaluation.md:整合Jenova.ai基准 + Confident AI指标体系 + Survey分类法 - agent-security.md:新增CFD攻击 + 关联BadRobot/BadAgent/AgentPoison - rag-evaluation.md:关联Awesome-RAG-Evaluation repo + RAGAS/ARES - domain-agents.md:补充Parthenon Law法律agent案例

  3. 精读优先级(Anan审稿候选): - ✅ RAH (2606.13643):subagent设计值得深入 - ✅ Unified Rollout Budget (2606.11119):引用链丰富,RL训练前沿 - ⚠️ Jenova.ai基准:商业报告,但数据清晰可作参考

需要进一步核验

  • arXiv 2507.* 编号异常(可能是2025年7月,需确认实际发布时间)
  • RAH论文中未给出最终分数,只提到超越baseline,需读全文获取完整数据
  • Jenova.ai基准的完整排行榜和测试细节(可能需要访问完整报告)

草稿版本:v1.0
产出实例:Tom
待同步:由同步任务串行合并至 research-kb/review/published/