找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 17|回复: 0

在线鲁棒规划在模型不确定性下:一种基于样本的方法

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:54:39 | 显示全部楼层 |阅读模式
摘要: 在马尔可夫决策过程(MDPs)中的在线规划使代理能够通过从当前状态模拟未来轨迹来做出顺序决策,使其非常适用于大规模或动态环境。稀疏采样和蒙特卡洛树搜索(MCTS)等基于样本的方法被广泛采用,因为它们能够利用生成模型来近似最优动作。然而,在实际设置中,生成模型通常是从有限数据中学习到的,引入了可能降低性能或导致不安全行为的近似误差。为了解决这些挑战,鲁棒MDPs(RMDPs)提供了一个有原则的规划框架,用于在模型不确定性下进行规划,然而现有方法通常计算密集且不适合实时使用。在这项工作中,我们介绍了鲁棒稀疏采样(RSS),这是第一个具有有限样本理论性能保证的RMDPs的在线规划算法。与稀疏采样不同,该算法通过利用样本平均逼近(SAA)的效率和理论性质计算出鲁棒值函数,从而在在线设置中实现可处理的鲁棒策略计算。RSS适用于无限或连续状态空间,其样本和计算复杂性与状态空间大小无关。我们提供理论性能保证,并在实验中证明,RSS在具有不确定动态的环境中优于标准稀疏采样。
更新时间: 2025-09-19 11:43:08
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 13:22 , Processed in 0.073337 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表