|
摘要: 在无模型强化学习(RL)中实现可证稳定性仍然是一个挑战,特别是在平衡探索和严格安全性方面。本文介绍了MSACL,这是一个将指数稳定性理论与最大熵RL相结合的框架,通过多步李雅普诺夫证书学习实现。与依赖复杂奖励设计的方法不同,MSACL利用离策略多步数据学习满足理论稳定条件的李雅普诺夫证书。通过引入指数稳定性标签(ESL)和$λ$加权聚合机制,该框架有效平衡了多步学习中的偏差-方差权衡。策略优化由稳定感知优势函数引导,确保学习的策略促进快速的李雅普诺夫下降。我们在包括稳定化和非线性跟踪任务在内的六个基准测试中评估了MSACL,展示了其在最先进的基于李雅普诺夫的RL算法上的优越性。MSACL在简单奖励下实现了指数稳定性和快速收敛,同时对不确定性具有显著的鲁棒性,并且能够泛化到未见轨迹。敏感性分析确定了多步地平线$n=20$作为不同系统的稳健默认值。通过将李雅普诺夫理论与离策略演员-评论框架相结合,MSACL为可验证的安全学习控制提供了基础。源代码和基准环境将公开提供。 更新时间: 2025-12-31 16:36:44 领域: cs.LG,cs.AI,cs.RO,eess.SY
|