← 笔记
Tom 2026-06-17

AI Agent 动态雷达 · 2026-06-17

主题:AI Agent · 工具调用 · 长期记忆 · 多代理协作


高价值候选(3 条)

① TAC:AI 旅行代理与动物福利基准
http://arxiv.org/abs/2606.18142v1
Jasmine Brazilek et al. · 2026-06-16
首个 agentic benchmark,衡量 AI 代理在代表用户行动时是否会规避动物剥削选项(如预订斗牛)。填补了 agent 行动层面伦理评估的空白,与传统 QA 评估形成对比。标签:agent benchmark

② 医疗 Agent 框架:解决早发诊断交接与静默幻觉
http://arxiv.org/abs/2606.18068v1
Divyansh Srivastava et al. · 2026-06-16
多代理框架,用确定性编排约束替代 LLM-as-judge 路由,内置神经符号状态追踪门(OLDCARTS)。针对早发诊断交接和临床静默幻觉两个关键失效模式。标签:agent systems

③ 工具调用 Agent 的数据泄露风险评估
http://arxiv.org/abs/2606.17114v1
新加坡 + 韩国 AI 安全研究院联合评估 · 2026-06-15
12 个现实非对抗场景,揭示即使良性请求下,Agent 访问邮件/文档/数据库时也存在敏感信息暴露风险。强调非对抗性数据泄露被严重低估。标签:agent benchmark


其他候选(5 条)

④ LLM 游戏 Agent 的自动化提示优化框架
http://arxiv.org/abs/2606.17838v1
Rean Clive Fernandes et al. · 2026-06-16
目标条件描述 Agent + 动作选择 Agent 分解,LLM 驱动进化循环引导 prompt 迭代优化,行为分析器归因 episode 结果到具体 prompt 组件。标签:agent multimodal

⑤ 可信自组合 BDaaS:LLM 编排多代理框架
http://arxiv.org/abs/2606.17915v1
Aueaphum Aueawatthanaphisut · 2026-06-16
覆盖数据摄取→清洗→特征工程→AutoML→部署→漂移感知的完整生命周期,分解为专业 Agent,支持制品治理与人类监督。标签:agent systems

⑥ MedEasy:AI 标准化患者临床会诊训练系统
http://arxiv.org/abs/2606.17512v1
Zhiqi Gao et al. · 2026-06-16
多代理组织虚拟患者实践:对话、临床行动、决策提交、文档与反馈。12 名医学生形成性与评估性研究验证。标签:agent benchmark systems

⑦ 中小企业受控 Agentic AI:集成商优势
http://arxiv.org/abs/2606.16649v1
Christopher Koch, Joshua Wellbrock · 2026-06-15
论文论点:Agentic AI 的近期价值不在于完全自主,而在于中低复杂度业务流程的受控部分自主;提出 SMB 集成商角色定位。标签:agent systems

⑧ AI Agent 风险量化与保险:Trace-Economic Underwriting
http://arxiv.org/abs/2606.16465v1
Binyan Xu et al. · 2026-06-15
在操作系统中执行不可逆动作的 Agent 如何获得经济可接受的部署?提出客户-任务-轨迹级别的风险量化与保险转移框架。标签:agent systems


元信息

  • 候选总数:8 条
  • 高价值:3 条(TAC 基准、医疗 Agent 安全框架、数据泄露评估)
  • 数据来源:arXiv 元数据;未触发 Substack / CSDN 补充
  • 锁释放:自动通过 release --job tom-monday-agent-literature