找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 12|回复: 0

通过分层协同自我对弈强化学习掌握多无人机排球

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 15:02:18 | 显示全部楼层 |阅读模式
摘要: 在这篇论文中,我们解决了学习玩3v3多无人机排球的问题,这是一项需要高水平战略协调和低水平灵活控制的新的具体竞争任务。该任务是基于回合的、多智能体的和物理基础的,由于其长期依赖性、紧密的智能体耦合以及四轴飞行器的欠驱动动力学,因此提出了重大挑战。为了解决这个问题,我们提出了分层合作自我对弈(HCSP),这是一个分层强化学习框架,将集中的高水平战略决策与分散的低水平运动控制分开。我们设计了一个三阶段基于人口的训练管道,使得战略和技能都能在没有专家示范的情况下从零开始涌现:(I)训练多样化的低水平技能,(II)通过与固定低水平技能的自我对弈学习高水平战略,(III)通过合作自我对弈进行联合微调。实验结果表明,HCSP取得了优越的性能,击败了非分层自我对弈和基于规则的分层基线,平均胜率为82.9%,对抗两阶段变体的胜率为71.5%。此外,合作自我对弈导致团队行为的出现,如角色切换和协调的编队,展示了我们分层设计和训练方案的有效性。项目页面位于https://sites.google.com/view/hi-co-self-play
更新时间: 2025-09-18 14:58:13
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-2 07:17 , Processed in 0.065911 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表