MSACL：具有Lyapunov证书的多步Actor-Critic学习，用于指数稳定控制

于红博 · 发表于 2026-1-4 22:57:44

摘要: 在无模型强化学习（RL）中实现可证稳定性仍然是一个挑战，特别是在平衡探索和严格安全性方面。本文介绍了MSACL，这是一个将指数稳定性理论与最大熵RL相结合的框架，通过多步李雅普诺夫证书学习实现。与依赖复杂奖励设计的方法不同，MSACL利用离策略多步数据学习满足理论稳定条件的李雅普诺夫证书。通过引入指数稳定性标签（ESL）和$λ$加权聚合机制，该框架有效平衡了多步学习中的偏差-方差权衡。策略优化由稳定感知优势函数引导，确保学习的策略促进快速的李雅普诺夫下降。我们在包括稳定化和非线性跟踪任务在内的六个基准测试中评估了MSACL，展示了其在最先进的基于李雅普诺夫的RL算法上的优越性。MSACL在简单奖励下实现了指数稳定性和快速收敛，同时对不确定性具有显著的鲁棒性，并且能够泛化到未见轨迹。敏感性分析确定了多步地平线$n=20$作为不同系统的稳健默认值。通过将李雅普诺夫理论与离策略演员-评论框架相结合，MSACL为可验证的安全学习控制提供了基础。源代码和基准环境将公开提供。

更新时间: 2025-12-31 16:36:44

领域: cs.LG,cs.AI,cs.RO,eess.SY

下载: http://arxiv.org/abs/2512.24955v1

		自动登录	找回密码
密码			立即注册

MSACL：具有Lyapunov证书的多步Actor-Critic学习，用于指数稳定控制

浏览过的版块