|
摘要: 在马尔可夫决策过程(MDPs)中的在线规划使代理能够通过从当前状态模拟未来轨迹来做出顺序决策,使其非常适用于大规模或动态环境。稀疏采样和蒙特卡洛树搜索(MCTS)等基于样本的方法被广泛采用,因为它们能够利用生成模型来近似最优动作。然而,在实际设置中,生成模型通常是从有限数据中学习到的,引入了可能降低性能或导致不安全行为的近似误差。为了解决这些挑战,鲁棒MDPs(RMDPs)提供了一个有原则的规划框架,用于在模型不确定性下进行规划,然而现有方法通常计算密集且不适合实时使用。在这项工作中,我们介绍了鲁棒稀疏采样(RSS),这是第一个具有有限样本理论性能保证的RMDPs的在线规划算法。与稀疏采样不同,该算法通过利用样本平均逼近(SAA)的效率和理论性质计算出鲁棒值函数,从而在在线设置中实现可处理的鲁棒策略计算。RSS适用于无限或连续状态空间,其样本和计算复杂性与状态空间大小无关。我们提供理论性能保证,并在实验中证明,RSS在具有不确定动态的环境中优于标准稀疏采样。 更新时间: 2025-09-19 11:43:08 领域: cs.AI
|