条目A2：ACL 2026 Findings — LLM Agent记忆机制演进调查（arXiv:2605.06716）

可复用信息

- 效果数据：
- EvoArena平均提升+1.5%（step accuracy）
- GAIA标准基准提升+6.1%，LoCoMo提升+4.8%
- 链级准确率提升+3.7%（最关键，说明跨多个演化步骤的任务中记忆版本历史发挥了作用）
- Terminal-Bench-Evo链级：+2.6%→+8.3%（当patch uptake非零时提升更显著，说明历史转换证据在改变Agent计划或命令时最有用）
- 与今日已有内容的关系：与下午批次SkillsBench（Agent Skills效能基准）和ACL 2026 Memory Survey（Storage→Reflection→Experience）构成互补——EvoArena专注动态环境下的记忆挑战，ACL Survey提供记忆机制演进的全景框架
- 标签：llm-agent memory benchmark evomem arxiv2026 dynamic-environment
- 建议分类：reproduction / AI-Agent / 评测基准