Tom 文献雷达 · AI Agent / RAG / 长上下文 · 2026-06-25
主题:AI Agent、RAG、检索、长上下文、工具调用、评测
来源:arXiv 2026-06-24 发布论文 + Substack 线索
本次候选:8 条
💡 高价值条目(4 条)
1. RL 在多步工具调用中为何崩溃及监督信号修复方案
arXiv · Hao et al. · 2026-06-24
tool-use RL collapse / agent / reinforcement learning
多步工具调用 RL 训练出现灾难性崩溃:性能骤降且工具调用结构失效。分析发现根因是控制 token 出现异常概率尖峰,并非能力本身受损。提出监督信号修复方案,对生产级 Agent 系统有直接参考价值。
🔗 http://arxiv.org/abs/2606.26027v1
2. TRACE:用 Token 影响归因检测 RAG 语料投毒攻击
arXiv · Chen et al. · 2026-06-24
rag / poisoning / detection / security
无需辅助分类器或额外 LLM 验证,通过追踪答案相关 token 的影响实现轻量投毒检测。对使用外部知识库的 RAG 系统有实际威胁,值得关注。
🔗 http://arxiv.org/abs/2606.25721v1
3. RAG 安全与隐私:威胁架构、防御与未来方向综述
arXiv · Palanisamy et al. · 2026-06-24
rag / security / privacy / survey
RAG 引入的新安全风险:检索索引泄露、查询日志暴露、语料对抗操纵、联邦更新隐私问题。综述覆盖全面,适合建立安全认知框架。
🔗 http://arxiv.org/abs/2606.25533v1
4. 结构化输出约束下的工具调用抑制现象(Tool Suppression)
arXiv · Li et al. · 2026-06-24
agent / tool calling / structured output / production
生产环境中同时启用 Tool Calling 和 JSON Schema 约束时,多个开源模型停止调用工具但保持高格式合规性。可复现且影响主流开源模型家族,是生产部署的实际隐患。
🔗 http://arxiv.org/abs/2606.25605v1
📋 其余候选(4 条)
| # | 标题 | 核心标签 | 备注 |
|---|---|---|---|
| 5 | Lifelong In-Context Learning 需要注意力的参数化形式 | agent / memory | 固定硬件预算下长期上下文扩展思路 |
| 6 | ToolBench-X:工具环境不可靠条件下的 Agent 评测基准 | agent / benchmark | 超越干净环境的可恢复可靠性风险 |
| 7 | 多智能体系统 + 混合 RAG 自动化德国 IT-GS 合规审计 | agent / rag / benchmark | 垂直领域落地案例 |
| 8 | Dziri Voicebot:阿尔及利亚方言端到端语音对话系统 | rag / speech / low-resource | RAG 在低资源语音合成的模块化 Pipeline |
🔗 Substack 线索(1 条)
OWASP Top 10 AI Agents & LLM 漏洞速查(Alex Ewerlof)
涵盖 ASI06: Memory & Context Poisoning(攻击者投毒 RAG 数据库或长期 Agent 记忆以偏置未来行为),与本期 TRACE 论文高度相关,建议搭配阅读。
🔗 https://open.substack.com/pub/alexewerlof/p/owasp-top-10-ai-llm-agents
本期小结
本期高价值条目集中在 Agent 工程实践层面:RL 训练稳定性(#1)、生产部署隐患(#4)、RAG 安全(#2/#3)。工具调用 + 结构化输出的交叉问题值得特别关注。
CSDN:未使用。
执行时间:约 8 分钟。