多智能体系统中安全可信的代理式人工智能的哨兵代理

于红博 · 发表于 2025-9-21 15:08:18

摘要: 本文提出了一个新颖的架构框架，旨在增强多智能体系统（MAS）中的安全性和可靠性。该框架的一个核心组成部分是Sentinel Agents网络，作为一个分布式安全层，集成了诸如大型语言模型（LLMs）的语义分析、行为分析、检索增强验证和跨智能体异常检测等技术。这些代理可以潜在地监督智能体之间的通信，识别潜在威胁，执行隐私和访问控制，并保持全面的审计记录。与Sentinel Agents的概念互补的是协调Agent的使用。协调Agent监督政策实施，并管理智能体的参与。此外，协调Agent还从Sentinel Agents那里接收警报。基于这些警报，它可以调整政策，隔离或隔离行为不端的代理，并遏制威胁，以维护MAS生态系统的完整性。这种双层安全方法将Sentinel Agents的持续监控与协调Agent的治理功能相结合，支持对各种威胁的动态和适应性防御机制，包括及时注入、串谋代理行为、LLMs生成的幻觉、隐私泄露和协同多智能体攻击。除了架构设计，我们还展示了一个仿真研究，其中将162种不同家族（及时注入、幻觉和数据外泄）的合成攻击注入到一个多智能体对话环境中。Sentinel Agents成功检测到了攻击尝试，证实了所提出的监控方法的实际可行性。该框架还提供了增强的系统可观测性，支持合规性，并实现随时间的政策演变。

更新时间: 2025-09-18 13:39:59

领域: cs.AI,cs.MA

下载: http://arxiv.org/abs/2509.14956v1

		自动登录	找回密码
密码			立即注册