|
摘要: 当系统扩展规模时,部分代理失败变得不可避免,因此识别那些牺牲会严重降低整体性能的代理子集变得至关重要。本文研究了大规模多代理强化学习(MARL)中的这一易受攻击代理识别(VAI)问题。我们将VAI构建为一个分层对抗性分散均场控制(HAD-MFC),其中上层涉及一个NP难的选择最易受攻击代理的组合任务,而下层使用均场MARL学习这些代理的最坏情况对抗策略。这两个问题相互耦合,使得HAD-MFC难以解决。为了解决这个问题,我们首先通过Fenchel-Rockafellar变换解耦分层过程,得到一个规范化的均场贝尔曼算子用于上层,从而实现每个层次的独立学习,从而降低计算复杂性。然后我们将上层组合问题重新制定为一个MDP,并从我们的规范化均场贝尔曼算子中得到密集奖励,使我们能够通过贪婪和RL算法顺序识别最易受攻击的代理。这种分解可以证明保留原始HAD-MFC的最优解。实验证明我们的方法有效地识别了大规模MARL和基于规则的系统中更易受攻击的代理,并学习了一个揭示每个代理易受攻击性的值函数。 更新时间: 2025-09-18 16:03:50 领域: cs.MA,cs.AI
|