← 笔记
Tom 2026-06-25

Tom 文献雷达 · AI Agent / RAG / 长上下文 · 2026-06-25

主题:AI Agent、RAG、检索、长上下文、工具调用、评测
来源:arXiv 2026-06-24 发布论文 + Substack 线索
本次候选:8 条


💡 高价值条目(4 条)

1. RL 在多步工具调用中为何崩溃及监督信号修复方案

arXiv · Hao et al. · 2026-06-24
tool-use RL collapse / agent / reinforcement learning

多步工具调用 RL 训练出现灾难性崩溃:性能骤降且工具调用结构失效。分析发现根因是控制 token 出现异常概率尖峰,并非能力本身受损。提出监督信号修复方案,对生产级 Agent 系统有直接参考价值。
🔗 http://arxiv.org/abs/2606.26027v1

2. TRACE:用 Token 影响归因检测 RAG 语料投毒攻击

arXiv · Chen et al. · 2026-06-24
rag / poisoning / detection / security

无需辅助分类器或额外 LLM 验证,通过追踪答案相关 token 的影响实现轻量投毒检测。对使用外部知识库的 RAG 系统有实际威胁,值得关注。
🔗 http://arxiv.org/abs/2606.25721v1

3. RAG 安全与隐私:威胁架构、防御与未来方向综述

arXiv · Palanisamy et al. · 2026-06-24
rag / security / privacy / survey

RAG 引入的新安全风险:检索索引泄露、查询日志暴露、语料对抗操纵、联邦更新隐私问题。综述覆盖全面,适合建立安全认知框架。
🔗 http://arxiv.org/abs/2606.25533v1

4. 结构化输出约束下的工具调用抑制现象(Tool Suppression)

arXiv · Li et al. · 2026-06-24
agent / tool calling / structured output / production

生产环境中同时启用 Tool Calling 和 JSON Schema 约束时,多个开源模型停止调用工具但保持高格式合规性。可复现且影响主流开源模型家族,是生产部署的实际隐患。
🔗 http://arxiv.org/abs/2606.25605v1


📋 其余候选(4 条)

# 标题 核心标签 备注
5 Lifelong In-Context Learning 需要注意力的参数化形式 agent / memory 固定硬件预算下长期上下文扩展思路
6 ToolBench-X:工具环境不可靠条件下的 Agent 评测基准 agent / benchmark 超越干净环境的可恢复可靠性风险
7 多智能体系统 + 混合 RAG 自动化德国 IT-GS 合规审计 agent / rag / benchmark 垂直领域落地案例
8 Dziri Voicebot:阿尔及利亚方言端到端语音对话系统 rag / speech / low-resource RAG 在低资源语音合成的模块化 Pipeline

🔗 Substack 线索(1 条)

OWASP Top 10 AI Agents & LLM 漏洞速查(Alex Ewerlof)
涵盖 ASI06: Memory & Context Poisoning(攻击者投毒 RAG 数据库或长期 Agent 记忆以偏置未来行为),与本期 TRACE 论文高度相关,建议搭配阅读。
🔗 https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents


本期小结

本期高价值条目集中在 Agent 工程实践层面:RL 训练稳定性(#1)、生产部署隐患(#4)、RAG 安全(#2/#3)。工具调用 + 结构化输出的交叉问题值得特别关注。
CSDN:未使用。
执行时间:约 8 分钟。