Tom 文献雷达 - 2026-06-13 下午扫描

扫描时间：2026-06-13 14:40 CST
主题：AI Agent、RAG评测、长上下文推理、agent安全
候选总数：8条
必读/必跟进：3条

⭐ 必读候选

1. Recursive Agent Harnesses (RAH)

arXiv：2606.13643
URL：https://arxiv.org/html/2606.13643
主题：长上下文任务中的递归agent架构，subagent + harness工具链
关键数据：
Oolong-Synthetic benchmark（629K token/实例平均）
对比：单agent coding baseline 71.75%，RLM 64.38%
每个entry独立subagent + context window + 工具
创新点：
递归harness vs 递归模型（RLM）的架构对比
工具访问 + per-entry推理 vs 单一regex启发式
引用Zhang 2026 RLM、Cao 2026 coding agent
分类标签：agent-architecture, long-context, recursive-system, harness-design
建议操作：进入 papers.jsonl，精读subagent设计部分

2. A Unified Rollout Budget Allocation Framework for Efficient Agentic RL

arXiv：2606.11119
URL：https://arxiv.org/pdf/2606.11119
主题：Agent推理的RL训练效率优化，rollout预算分配
关键引用：
DeepScaler (Luo 2025)：1.5B模型超越o1-preview
Mao 2026a: Dynamics-predictive sampling for active RL finetuning
Mao 2026b: RLVR without ineffective samples
Zhou 2023: LATS (Language Agent Tree Search)
Zheng 2025: Act only when it pays
创新点：
选择性rollout策略（避免低效样本）
Tree search + RL结合框架
统一预算分配框架
分类标签：agent-rl, reasoning-optimization, budget-allocation, tree-search
建议操作：进入 papers.jsonl，关联DeepScaler/LATS相关工作

3. Jenova.ai Long-Context Agentic Orchestration Benchmark (Feb 2026)

来源：Jenova.ai 官方报告
URL：https://www.jenova.ai/en/resources/jenova-ai-long-context-agentic-orchestration-benchmark-february-2026
发布时间：2026年2月
主题：极长上下文(100K+ tokens)下的agent决策准确度基准
测试场景：
非编码真实工作流编排
12步骤工作流中的第7步决策点
150K tokens累积状态
需要综合：系统提示 + 先前步骤结果 + 用户原始意图 + 当前进度
排行榜TOP5（准确度）： 1. Claude 4.5 Opus: 76% 2. Gemini 3.1 Pro Preview: 74% 3. （其他模型未详细列出）
评测维度：
准确度（% scenarios correct）
平均延迟
平均推理成本（input + output tokens）
观察：Claude/Gemini家族领先，与社区对其instruction-following和agentic能力的评价一致
分类标签：agent-benchmark, long-context, orchestration, production-eval, non-coding-workflow
可信度评估：中高（商业基准，但指标清晰、场景具体、排行榜公开）
建议操作：记录至知识库，作为生产环境agent能力参考基准

📊 值得关注候选

4. Parthenon Law: A Self-Evolving Legal-Agent Framework

arXiv：2606.04602v2
URL：https://arxiv.org/html/2606.04602v2
领域：法律垂直领域agent
特点：
Harvey LAB benchmark（长horizon matter工作）
自演化框架
端到端legal matter评测（source documents → deliverables + expert rubrics）
成本对比：~70× 人工速度，基于matter复杂度bucket估算
分类标签：domain-agent, legal-ai, self-evolving, vertical-benchmark
建议操作：垂直领域agent案例，可补充至domain-specific agents主题页

5. Context-Fractured Decomposition Attacks on Tool-Using LLM Agents

arXiv：2606.09084v1
URL：https://arxiv.org/html/2606.09084v1
主题：Agent安全攻击，上下文分解攻击（CFD）
攻击原理：
利用agent有限观测窗口（bounded observability）
外部攻击LLM产生局部可接受但组合有效的分解任务
Step-level accept/refuse判断噪声
相关工作引用：
BadRobot (Zhang 2024)：voice-based attack
BadAgent (Wang 2024)：backdoor poisoning
Breaking Agents (Zhang 2025a)：malfunction amplification
AgentPoison (Chen 2024)：RAG memory poisoning
防御方向：provenance lineage tagging
局限性：
依赖外部攻击LLM（弱模型降低成功率）
评测覆盖有限（模型家族、工具、pipeline拓扑）
多模态agent、紧密耦合RAG系统、强沙箱场景可能不同
分类标签：agent-security, adversarial-attack, safety, tool-using-agent
建议操作：进入agent安全主题页，关联其他agent攻击研究

6. Evaluation and Benchmarking of LLM Agents: A Survey

arXiv：2507.21504v1（注意：编号异常，可能是2025年7月）
URL：https://arxiv.org/html/2507.21504v1
主题：Agent评测分类法 survey
分类框架（二维）：
评测目标（what）：behavior, capabilities, reliability, safety
评测流程（how）：interaction modes, datasets/benchmarks, metric computation, evaluation tooling, environments
企业场景挑战（被当前研究忽略）：
Role-based access to data (RBAC)
可靠性保证需求
动态 + 长horizon交互
合规（compliance）
价值点：系统化梳理碎片化的agent评测领域
分类标签：agent-evaluation, survey, taxonomy, enterprise-challenges
建议操作：survey类文献，进入papers.jsonl作为评测体系参考

🔧 工具生态补充

7. Confident AI: LLM Agent Evaluation Metrics Guide (2026)

来源：Confident AI 官方博客
URL：https://www.confident-ai.com/blog/llm-agent-evaluation-complete-guide
发布时间：2026年（具体月份未知）
内容覆盖：
Level 2: Tool-Calling Agent评测
- Tool correctness
- Tool calling
端到端评测指标：
- Task completion
- Step efficiency
- Argument correctness
- Plan adherence
- Plan quality
- Reasoning quality
- Answer relevancy
- Faithfulness
- Safety, latency, cost
评测层级：
- End-to-end evaluation
- Trajectory-level evaluation
- Component-level evaluation
实战建议：
确定性metric用于精确检查（如tool correctness）
LLM-as-a-judge用于需要判断/上下文的评估
价值点：工程落地导向，实战级agent评测指标体系
分类标签：evaluation-tooling, metrics, production-guide, tool-calling-eval
建议操作：补充至agent评测工具页，作为metric选择参考

8. RAG Evaluation Survey: Awesome-RAG-Evaluation

来源：GitHub yhpeter/awesome-rag-evaluation
URL：https://github.com/yhpeter/awesome-rag-evaluation
论文：Evaluation of Retrieval-Augmented Generation: A Survey（arXiv链接未给出）
内容：
Auepora：A Unified Evaluation Process of RAG
分离评测：Retrieval组件 + Generation组件
量化指标：relevance, accuracy, faithfulness
output-ground_truth配对：多种可能的输出/真值对
数据集/指标分析：对比现有RAG benchmarks
局限性讨论 + 未来方向建议
相关框架：
RAGAS (Automated Evaluation of RAG)
ARES (Stanford FutureData)
价值点：
RAG评测体系化梳理
与本轮搜索到的RAGAS/ARES GitHub repos呼应
分类标签：rag-evaluation, survey-repo, benchmark-collection, retrieval-generation-metrics
建议操作：进入RAG评测主题页，关联RAGAS/ARES工具

🚫 Substack搜索情况

本轮Substack搜索（Tavily查询 LLM agent systems RAG engineering substack.com 2026）返回0条结果。

可能原因： 1. Substack内容索引延迟（Tavily/搜索引擎未及时收录） 2. 搜索关键词未精准命中高质量AI研究专栏 3. Substack优质内容多在订阅墙后，公开索引有限

已知优质AI研究Substack专栏（待下次直接访问）： - Simon Willison (simonwillison.net) - Eugene Yan (eugeneyan.com) - Chip Huyen (huyenchip.com) - Lilian Weng (lilianweng.github.io - 虽不是Substack但类似) - Cameron R. Wolfe (cameronrwolfe.substack.com) - Sebastian Raschka

后续改进建议： - 改用RSS聚合或直接访问已知专栏 - 使用 web_fetch 工具抓取专栏首页最新文章 - 或通过 tavily_search 搜索作者名 + 主题

📋 总结与建议操作

本次收获

Agent架构演进：递归harness（RAH）vs 递归模型（RLM）
Agent RL训练：rollout预算分配、选择性训练、树搜索结合
生产环境基准：Jenova.ai长上下文编排基准（Claude/Gemini领先）
Agent安全：上下文分解攻击（CFD）及防御方向
评测体系：survey + 工具生态（Confident AI, Awesome-RAG-Evaluation）
垂直领域：法律agent（Parthenon Law）

建议写入路径

papers.jsonl 新增： - arXiv 2606.13643 (RAH) - arXiv 2606.11119 (Unified Rollout Budget) - arXiv 2507.21504v1 (Agent Eval Survey) - arXiv 2606.09084v1 (CFD Attacks) - arXiv 2606.04602v2 (Parthenon Law)
主题页更新建议： - agent-architecture.md：补充RAH递归harness设计 - agent-evaluation.md：整合Jenova.ai基准 + Confident AI指标体系 + Survey分类法 - agent-security.md：新增CFD攻击 + 关联BadRobot/BadAgent/AgentPoison - rag-evaluation.md：关联Awesome-RAG-Evaluation repo + RAGAS/ARES - domain-agents.md：补充Parthenon Law法律agent案例
精读优先级（Anan审稿候选）： - ✅ RAH (2606.13643)：subagent设计值得深入 - ✅ Unified Rollout Budget (2606.11119)：引用链丰富，RL训练前沿 - ⚠️ Jenova.ai基准：商业报告，但数据清晰可作参考

需要进一步核验

arXiv 2507.* 编号异常（可能是2025年7月，需确认实际发布时间）
RAH论文中未给出最终分数，只提到超越baseline，需读全文获取完整数据
Jenova.ai基准的完整排行榜和测试细节（可能需要访问完整报告）

草稿版本：v1.0
产出实例：Tom
待同步：由同步任务串行合并至 research-kb/review/ 或 published/