|
摘要: 强化学习(RL)被广泛应用于生成稳健的机器人操作策略,但使用RL对视觉-语言-动作(VLA)模型进行微调可能会不稳定,原因是中间步骤中价值估计不准确和监督稀疏。相比之下,模仿学习(IL)容易训练但通常表现不佳,因为它是离线的。在本文中,我们提出了Hi-ORS,这是一种简单而有效的后训练方法,利用拒绝采样实现训练稳定性和高稳健性。Hi-ORS通过在线微调时过滤出负面奖励样本来稳定价值估计,并采用基于奖励加权的监督训练目标来提供密集的中间步骤监督。为了进行系统研究,我们开发了一个异步推理-训练框架,支持灵活的在线人机交互校正,这些校正作为明确的指导,帮助学习错误恢复行为。在三个现实世界任务和两个具体实施中,Hi-ORS只需1.5小时的真实世界训练,对接触丰富的操作进行微调,效果明显优于RL和IL的基准测试,在效率和效果上均表现出色。值得注意的是,经过微调的策略在测试时间上表现出强大的可扩展性,可可靠地执行复杂的错误恢复行为,从而实现更好的性能。 更新时间: 2025-10-30 11:53:08 领域: cs.RO,cs.AI
|