|
摘要: 当系统规模扩大时,部分代理失败变得不可避免,因此至关重要的是识别出那些妥协将严重降低整体性能的代理子集。本文研究了大规模多代理强化学习(MARL)中的这个脆弱代理识别(VAI)问题。我们将VAI框架化为一种分层对抗分散均值场控制(HAD-MFC),其中上层涉及选择最脆弱代理的NP-hard组合任务,下层使用均值场MARL学习这些代理的最坏情况对抗策略。这两个问题相互耦合,使得HAD-MFC难以解决。为了解决这个问题,我们首先通过Fenchel-Rockafellar变换解耦分层过程,得到上层的正则化均值场Bellman算子,使得每个层次可以独立学习,从而降低计算复杂性。然后,我们将上层的组合问题重新构建为一个具有来自我们的正则化均值场Bellman算子的密集奖励的MDP,从而使我们能够通过贪婪和RL算法顺序识别出最脆弱的代理。这种分解可以证明保留原始HAD-MFC的最优解。实验证明我们的方法有效地在大规模MARL和基于规则的系统中识别出更多脆弱代理,并学习了一个揭示每个代理脆弱性的值函数。 更新时间: 2025-09-19 08:02:22 领域: cs.MA,cs.AI
|