AI Agent 动态雷达 · 2026-06-17

主题：AI Agent · 工具调用 · 长期记忆 · 多代理协作

高价值候选（3 条）

① TAC：AI 旅行代理与动物福利基准
http://arxiv.org/abs/2606.18142v1
Jasmine Brazilek et al. · 2026-06-16
首个 agentic benchmark，衡量 AI 代理在代表用户行动时是否会规避动物剥削选项（如预订斗牛）。填补了 agent 行动层面伦理评估的空白，与传统 QA 评估形成对比。标签：agent benchmark

② 医疗 Agent 框架：解决早发诊断交接与静默幻觉
http://arxiv.org/abs/2606.18068v1
Divyansh Srivastava et al. · 2026-06-16
多代理框架，用确定性编排约束替代 LLM-as-judge 路由，内置神经符号状态追踪门（OLDCARTS）。针对早发诊断交接和临床静默幻觉两个关键失效模式。标签：agent systems

③ 工具调用 Agent 的数据泄露风险评估
http://arxiv.org/abs/2606.17114v1
新加坡 + 韩国 AI 安全研究院联合评估 · 2026-06-15
12 个现实非对抗场景，揭示即使良性请求下，Agent 访问邮件/文档/数据库时也存在敏感信息暴露风险。强调非对抗性数据泄露被严重低估。标签：agent benchmark

其他候选（5 条）

④ LLM 游戏 Agent 的自动化提示优化框架
http://arxiv.org/abs/2606.17838v1
Rean Clive Fernandes et al. · 2026-06-16
目标条件描述 Agent + 动作选择 Agent 分解，LLM 驱动进化循环引导 prompt 迭代优化，行为分析器归因 episode 结果到具体 prompt 组件。标签：agent multimodal

⑤ 可信自组合 BDaaS：LLM 编排多代理框架
http://arxiv.org/abs/2606.17915v1
Aueaphum Aueawatthanaphisut · 2026-06-16
覆盖数据摄取→清洗→特征工程→AutoML→部署→漂移感知的完整生命周期，分解为专业 Agent，支持制品治理与人类监督。标签：agent systems

⑥ MedEasy：AI 标准化患者临床会诊训练系统
http://arxiv.org/abs/2606.17512v1
Zhiqi Gao et al. · 2026-06-16
多代理组织虚拟患者实践：对话、临床行动、决策提交、文档与反馈。12 名医学生形成性与评估性研究验证。标签：agent benchmark systems

⑦ 中小企业受控 Agentic AI：集成商优势
http://arxiv.org/abs/2606.16649v1
Christopher Koch, Joshua Wellbrock · 2026-06-15
论文论点：Agentic AI 的近期价值不在于完全自主，而在于中低复杂度业务流程的受控部分自主；提出 SMB 集成商角色定位。标签：agent systems

⑧ AI Agent 风险量化与保险：Trace-Economic Underwriting
http://arxiv.org/abs/2606.16465v1
Binyan Xu et al. · 2026-06-15
在操作系统中执行不可逆动作的 Agent 如何获得经济可接受的部署？提出客户-任务-轨迹级别的风险量化与保险转移框架。标签：agent systems

元信息

候选总数：8 条
高价值：3 条（TAC 基准、医疗 Agent 安全框架、数据泄露评估）
数据来源：arXiv 元数据；未触发 Substack / CSDN 补充
锁释放：自动通过 release --job tom-monday-agent-literature