[DataEvolver] Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving

类型：arxiv
标识：2606.07001
链接：https://arxiv.org/abs/2606.07001
主题：agent, database, engineering, evaluation, llm-infra, multimodal, rag
来源文件：
/inbox/jay/2026-06-13-weekly-briefing.md

可复用信息

- 现有四种解决方案（last-writer-wins、evidence-weighted merge、await-confirmation、per-rule policy）均未明确声明隔离级别和写时异常。
- TOKI 用双时态运算符代数为四种启发式方法建立统一形式化框架，证明其隔离前置条件，并给出审计行（audit row）保证 replay 一致性。
- 发现所有含 LLM Judge 的系统在写时路径上至少存在三种异常之一，只有 content-addressed 引擎层比较器能规避——而 TOKI 是唯一同时规避三种异常且保留 Judge 的方案。
- 工程启示：构建 Agent 记忆层时，TOKI 是目前最严谨的理论框架，对生产系统设计有直接指导意义。
- 是否精读：⭐⭐⭐⭐⭐ · 强烈推荐 — Agent 记忆系统必读

[DataEvolver] Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving
- 作者：Chao Deng et al. · v2 (2026-06-10)

写作用途

可放入 RAG / 知识库 / 检索增强相关工作的对比段。
可用于 Agent 架构、记忆、工具调用或多智能体研究背景。
可用于多模态推理、视觉语言模型或长上下文多模态问题定义。
可用于系统实现、实验平台或工程约束说明。

待补齐

BibTeX / 正式引用格式
方法与实验设置细节
与现有工作的差异点
是否有代码和数据集