找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4|回复: 0

MSACL:具有Lyapunov证书的多步Actor-Critic学习,用于指数稳定控制

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 22:57:44 | 显示全部楼层 |阅读模式
摘要: 在无模型强化学习(RL)中实现可证稳定性仍然是一个挑战,特别是在平衡探索和严格安全性方面。本文介绍了MSACL,这是一个将指数稳定性理论与最大熵RL相结合的框架,通过多步李雅普诺夫证书学习实现。与依赖复杂奖励设计的方法不同,MSACL利用离策略多步数据学习满足理论稳定条件的李雅普诺夫证书。通过引入指数稳定性标签(ESL)和$λ$加权聚合机制,该框架有效平衡了多步学习中的偏差-方差权衡。策略优化由稳定感知优势函数引导,确保学习的策略促进快速的李雅普诺夫下降。我们在包括稳定化和非线性跟踪任务在内的六个基准测试中评估了MSACL,展示了其在最先进的基于李雅普诺夫的RL算法上的优越性。MSACL在简单奖励下实现了指数稳定性和快速收敛,同时对不确定性具有显著的鲁棒性,并且能够泛化到未见轨迹。敏感性分析确定了多步地平线$n=20$作为不同系统的稳健默认值。通过将李雅普诺夫理论与离策略演员-评论框架相结合,MSACL为可验证的安全学习控制提供了基础。源代码和基准环境将公开提供。
更新时间: 2025-12-31 16:36:44
领域: cs.LG,cs.AI,cs.RO,eess.SY

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:00 , Processed in 0.074686 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表