Tom 文献雷达 - 2026-06-13 下午扫描
扫描时间:2026-06-13 14:40 CST
主题:AI Agent、RAG评测、长上下文推理、agent安全
候选总数:8条
必读/必跟进:3条
⭐ 必读候选
1. Recursive Agent Harnesses (RAH)
- arXiv:2606.13643
- URL:https://arxiv.org/html/2606.13643
- 主题:长上下文任务中的递归agent架构,subagent + harness工具链
- 关键数据:
- Oolong-Synthetic benchmark(629K token/实例平均)
- 对比:单agent coding baseline 71.75%,RLM 64.38%
- 每个entry独立subagent + context window + 工具
- 创新点:
- 递归harness vs 递归模型(RLM)的架构对比
- 工具访问 + per-entry推理 vs 单一regex启发式
- 引用Zhang 2026 RLM、Cao 2026 coding agent
- 分类标签:
agent-architecture,long-context,recursive-system,harness-design - 建议操作:进入
papers.jsonl,精读subagent设计部分
2. A Unified Rollout Budget Allocation Framework for Efficient Agentic RL
- arXiv:2606.11119
- URL:https://arxiv.org/pdf/2606.11119
- 主题:Agent推理的RL训练效率优化,rollout预算分配
- 关键引用:
- DeepScaler (Luo 2025):1.5B模型超越o1-preview
- Mao 2026a: Dynamics-predictive sampling for active RL finetuning
- Mao 2026b: RLVR without ineffective samples
- Zhou 2023: LATS (Language Agent Tree Search)
- Zheng 2025: Act only when it pays
- 创新点:
- 选择性rollout策略(避免低效样本)
- Tree search + RL结合框架
- 统一预算分配框架
- 分类标签:
agent-rl,reasoning-optimization,budget-allocation,tree-search - 建议操作:进入
papers.jsonl,关联DeepScaler/LATS相关工作
3. Jenova.ai Long-Context Agentic Orchestration Benchmark (Feb 2026)
- 来源:Jenova.ai 官方报告
- URL:https://www.jenova.ai/en/resources/jenova-ai-long-context-agentic-orchestration-benchmark-february-2026
- 发布时间:2026年2月
- 主题:极长上下文(100K+ tokens)下的agent决策准确度基准
- 测试场景:
- 非编码真实工作流编排
- 12步骤工作流中的第7步决策点
- 150K tokens累积状态
- 需要综合:系统提示 + 先前步骤结果 + 用户原始意图 + 当前进度
- 排行榜TOP5(准确度): 1. Claude 4.5 Opus: 76% 2. Gemini 3.1 Pro Preview: 74% 3. (其他模型未详细列出)
- 评测维度:
- 准确度(% scenarios correct)
- 平均延迟
- 平均推理成本(input + output tokens)
- 观察:Claude/Gemini家族领先,与社区对其instruction-following和agentic能力的评价一致
- 分类标签:
agent-benchmark,long-context,orchestration,production-eval,non-coding-workflow - 可信度评估:中高(商业基准,但指标清晰、场景具体、排行榜公开)
- 建议操作:记录至知识库,作为生产环境agent能力参考基准
📊 值得关注候选
4. Parthenon Law: A Self-Evolving Legal-Agent Framework
- arXiv:2606.04602v2
- URL:https://arxiv.org/html/2606.04602v2
- 领域:法律垂直领域agent
- 特点:
- Harvey LAB benchmark(长horizon matter工作)
- 自演化框架
- 端到端legal matter评测(source documents → deliverables + expert rubrics)
- 成本对比:~70× 人工速度,基于matter复杂度bucket估算
- 分类标签:
domain-agent,legal-ai,self-evolving,vertical-benchmark - 建议操作:垂直领域agent案例,可补充至domain-specific agents主题页
5. Context-Fractured Decomposition Attacks on Tool-Using LLM Agents
- arXiv:2606.09084v1
- URL:https://arxiv.org/html/2606.09084v1
- 主题:Agent安全攻击,上下文分解攻击(CFD)
- 攻击原理:
- 利用agent有限观测窗口(bounded observability)
- 外部攻击LLM产生局部可接受但组合有效的分解任务
- Step-level accept/refuse判断噪声
- 相关工作引用:
- BadRobot (Zhang 2024):voice-based attack
- BadAgent (Wang 2024):backdoor poisoning
- Breaking Agents (Zhang 2025a):malfunction amplification
- AgentPoison (Chen 2024):RAG memory poisoning
- 防御方向:provenance lineage tagging
- 局限性:
- 依赖外部攻击LLM(弱模型降低成功率)
- 评测覆盖有限(模型家族、工具、pipeline拓扑)
- 多模态agent、紧密耦合RAG系统、强沙箱场景可能不同
- 分类标签:
agent-security,adversarial-attack,safety,tool-using-agent - 建议操作:进入agent安全主题页,关联其他agent攻击研究
6. Evaluation and Benchmarking of LLM Agents: A Survey
- arXiv:2507.21504v1(注意:编号异常,可能是2025年7月)
- URL:https://arxiv.org/html/2507.21504v1
- 主题:Agent评测分类法 survey
- 分类框架(二维):
- 评测目标(what):behavior, capabilities, reliability, safety
- 评测流程(how):interaction modes, datasets/benchmarks, metric computation, evaluation tooling, environments
- 企业场景挑战(被当前研究忽略):
- Role-based access to data (RBAC)
- 可靠性保证需求
- 动态 + 长horizon交互
- 合规(compliance)
- 价值点:系统化梳理碎片化的agent评测领域
- 分类标签:
agent-evaluation,survey,taxonomy,enterprise-challenges - 建议操作:survey类文献,进入papers.jsonl作为评测体系参考
🔧 工具生态补充
7. Confident AI: LLM Agent Evaluation Metrics Guide (2026)
- 来源:Confident AI 官方博客
- URL:https://www.confident-ai.com/blog/llm-agent-evaluation-complete-guide
- 发布时间:2026年(具体月份未知)
- 内容覆盖:
- Level 2: Tool-Calling Agent评测
- Tool correctness
- Tool calling
- 端到端评测指标:
- Task completion
- Step efficiency
- Argument correctness
- Plan adherence
- Plan quality
- Reasoning quality
- Answer relevancy
- Faithfulness
- Safety, latency, cost
- 评测层级:
- End-to-end evaluation
- Trajectory-level evaluation
- Component-level evaluation
- 实战建议:
- 确定性metric用于精确检查(如tool correctness)
- LLM-as-a-judge用于需要判断/上下文的评估
- 价值点:工程落地导向,实战级agent评测指标体系
- 分类标签:
evaluation-tooling,metrics,production-guide,tool-calling-eval - 建议操作:补充至agent评测工具页,作为metric选择参考
8. RAG Evaluation Survey: Awesome-RAG-Evaluation
- 来源:GitHub yhpeter/awesome-rag-evaluation
- URL:https://github.com/yhpeter/awesome-rag-evaluation
- 论文:Evaluation of Retrieval-Augmented Generation: A Survey(arXiv链接未给出)
- 内容:
- Auepora:A Unified Evaluation Process of RAG
- 分离评测:Retrieval组件 + Generation组件
- 量化指标:relevance, accuracy, faithfulness
- output-ground_truth配对:多种可能的输出/真值对
- 数据集/指标分析:对比现有RAG benchmarks
- 局限性讨论 + 未来方向建议
- 相关框架:
- RAGAS (Automated Evaluation of RAG)
- ARES (Stanford FutureData)
- 价值点:
- RAG评测体系化梳理
- 与本轮搜索到的RAGAS/ARES GitHub repos呼应
- 分类标签:
rag-evaluation,survey-repo,benchmark-collection,retrieval-generation-metrics - 建议操作:进入RAG评测主题页,关联RAGAS/ARES工具
🚫 Substack搜索情况
本轮Substack搜索(Tavily查询 LLM agent systems RAG engineering substack.com 2026)返回0条结果。
可能原因: 1. Substack内容索引延迟(Tavily/搜索引擎未及时收录) 2. 搜索关键词未精准命中高质量AI研究专栏 3. Substack优质内容多在订阅墙后,公开索引有限
已知优质AI研究Substack专栏(待下次直接访问): - Simon Willison (simonwillison.net) - Eugene Yan (eugeneyan.com) - Chip Huyen (huyenchip.com) - Lilian Weng (lilianweng.github.io - 虽不是Substack但类似) - Cameron R. Wolfe (cameronrwolfe.substack.com) - Sebastian Raschka
后续改进建议:
- 改用RSS聚合或直接访问已知专栏
- 使用 web_fetch 工具抓取专栏首页最新文章
- 或通过 tavily_search 搜索作者名 + 主题
📋 总结与建议操作
本次收获
- Agent架构演进:递归harness(RAH)vs 递归模型(RLM)
- Agent RL训练:rollout预算分配、选择性训练、树搜索结合
- 生产环境基准:Jenova.ai长上下文编排基准(Claude/Gemini领先)
- Agent安全:上下文分解攻击(CFD)及防御方向
- 评测体系:survey + 工具生态(Confident AI, Awesome-RAG-Evaluation)
- 垂直领域:法律agent(Parthenon Law)
建议写入路径
-
papers.jsonl 新增: - arXiv 2606.13643 (RAH) - arXiv 2606.11119 (Unified Rollout Budget) - arXiv 2507.21504v1 (Agent Eval Survey) - arXiv 2606.09084v1 (CFD Attacks) - arXiv 2606.04602v2 (Parthenon Law)
-
主题页更新建议: -
agent-architecture.md:补充RAH递归harness设计 -agent-evaluation.md:整合Jenova.ai基准 + Confident AI指标体系 + Survey分类法 -agent-security.md:新增CFD攻击 + 关联BadRobot/BadAgent/AgentPoison -rag-evaluation.md:关联Awesome-RAG-Evaluation repo + RAGAS/ARES -domain-agents.md:补充Parthenon Law法律agent案例 -
精读优先级(Anan审稿候选): - ✅ RAH (2606.13643):subagent设计值得深入 - ✅ Unified Rollout Budget (2606.11119):引用链丰富,RL训练前沿 - ⚠️ Jenova.ai基准:商业报告,但数据清晰可作参考
需要进一步核验
- arXiv 2507.* 编号异常(可能是2025年7月,需确认实际发布时间)
- RAH论文中未给出最终分数,只提到超越baseline,需读全文获取完整数据
- Jenova.ai基准的完整排行榜和测试细节(可能需要访问完整报告)
草稿版本:v1.0
产出实例:Tom
待同步:由同步任务串行合并至 research-kb/review/ 或 published/