人在环路中的在线拒绝抽样用于机器人操作

于红博 · 发表于 2025-11-2 19:48:17

摘要: 强化学习（RL）被广泛应用于生成稳健的机器人操作策略，但使用RL对视觉-语言-动作（VLA）模型进行微调可能会不稳定，原因是中间步骤中价值估计不准确和监督稀疏。相比之下，模仿学习（IL）容易训练但通常表现不佳，因为它是离线的。在本文中，我们提出了Hi-ORS，这是一种简单而有效的后训练方法，利用拒绝采样实现训练稳定性和高稳健性。Hi-ORS通过在线微调时过滤出负面奖励样本来稳定价值估计，并采用基于奖励加权的监督训练目标来提供密集的中间步骤监督。为了进行系统研究，我们开发了一个异步推理-训练框架，支持灵活的在线人机交互校正，这些校正作为明确的指导，帮助学习错误恢复行为。在三个现实世界任务和两个具体实施中，Hi-ORS只需1.5小时的真实世界训练，对接触丰富的操作进行微调，效果明显优于RL和IL的基准测试，在效率和效果上均表现出色。值得注意的是，经过微调的策略在测试时间上表现出强大的可扩展性，可可靠地执行复杂的错误恢复行为，从而实现更好的性能。

更新时间: 2025-10-30 11:53:08

领域: cs.RO,cs.AI

下载: http://arxiv.org/abs/2510.26406v1

		自动登录	找回密码
密码			立即注册