摘要: 在这篇论文中,我们解决了学习玩3v3多无人机排球的问题,这是一项需要高水平战略协调和低水平灵活控制的新的具体竞争任务。该任务是基于回合的、多智能体的和物理基础的,由于其长期依赖性、紧密的智能体耦合以及四轴飞行器的欠驱动动力学,因此提出了重大挑战。为了解决这个问题,我们提出了分层合作自我对弈(HCSP),这是一个分层强化学习框架,将集中的高水平战略决策与分散的低水平运动控制分开。我们设计了一个三阶段基于人口的训练管道,使得战略和技能都能在没有专家示范的情况下从零开始涌现:(I)训练多样化的低水平技能,(II)通过与固定低水平技能的自我对弈学习高水平战略,(III)通过合作自我对弈进行联合微调。实验结果表明,HCSP取得了优越的性能,击败了非分层自我对弈和基于规则的分层基线,平均胜率为82.9%,对抗两阶段变体的胜率为71.5%。此外,合作自我对弈导致团队行为的出现,如角色切换和协调的编队,展示了我们分层设计和训练方案的有效性。项目页面位于https://sites.google.com/view/hi-co-self-play。 更新时间: 2025-09-18 14:58:13 领域: cs.AI
|