找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 13|回复: 0

在非稳态环境中的样本有效经验重播

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 15:02:40 | 显示全部楼层 |阅读模式
摘要: 在非稳态环境中进行强化学习(RL)是具有挑战性的,因为不断变化的动态和奖励会迅速使过去的经验过时。传统的经验重放(ER)方法,特别是那些使用TD-error优先级的方法,很难区分是由Agent政策引起的变化还是来自环境的变化,导致在动态条件下学习效率低下。为了解决这一挑战,我们提出了环境动态的差异(DoE),这是一个度量标准,可以隔离环境变化对价值函数的影响。基于此,我们引入了环境优先经验重放的差异(DEER),这是一个自适应的ER框架,根据策略更新和环境变化对转换进行优先级。DEER使用二进制分类器来检测环境变化,并在每次转变之前和之后应用不同的优先级策略,从而实现更加样本高效的学习。对四个非稳态基准上的实验表明,DEER相比最佳表现的最先进ER方法,进一步提高了离线策略算法的性能11.54%。
更新时间: 2025-09-18 14:57:09
领域: cs.LG,cs.AI,cs.NI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:16 , Processed in 0.070347 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表