找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 17|回复: 0

基于不确定性的少演示强化学习平滑政策规范化

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:44:55 | 显示全部楼层 |阅读模式
摘要: 在稀疏奖励的强化学习中,演示可以加速学习,但确定何时模仿它们仍然具有挑战性。我们提出了来自演示的平滑策略正则化(SPReD)框架,解决了一个基本问题:代理何时应该模仿演示而不是遵循自己的策略?SPReD使用集成方法明确地对演示和策略动作的Q值分布进行建模,量化不确定性进行比较。我们开发了两种互补的不确定性感知方法:一种概率方法估计演示优越性的可能性,另一种基于优势的方法通过统计显著性来缩放模仿。与流行方法(例如Q-filter)不同,它会做出二元模仿决策,SPReD应用连续的、不确定性成比例的正则化权重,在训练过程中减少梯度方差。尽管其计算简单,SPReD在八个机器人任务的实验中取得了显著的进展,在复杂任务中的表现超过现有方法高达14倍,同时保持对演示质量和数量的稳健性。我们的代码可在https://github.com/YujieZhu7/SPReD上找到。
更新时间: 2025-09-19 13:47:20
领域: cs.LG,cs.AI,cs.RO,stat.ML

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:39 , Processed in 0.077963 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表