人类辅助的机器人政策优化通过动作偏好优化

于红博 · 发表于 2025-11-2 21:59:55

摘要: 建立一个可靠且经过迭代改进的机器人系统对于部署真实世界应用至关重要。尽管“视觉-语言-动作”（VLA）模型被广泛认可为实现这种机器人部署的基础模型，但它们对离线专家演示的依赖严重限制了它们在部署后进行改进的能力。为了缓解这一限制，我们引入了动作偏好优化（APO）方法，旨在通过与环境互动中收集的人类辅助偏好对齐来改进VLA模型。该方法始于一个可靠的人机协作框架，通过人类干预实现可靠的故障修正和互动轨迹收集。然而，由于不可逆的机器人动作和令牌分布不匹配的挑战，直接利用这些互动轨迹进行偏好优化是非常困难的。为了解决这个问题，APO提出了一种自适应重新加权算法，通过从互动中得到的二元期望信号，有效地抑制易出错的动作，同时增强纠正动作的适应性。最终，APO赋予VLA模型从失败中学习的关键能力，为它们在动态环境中的迭代改进和可靠部署铺平道路。在模拟和真实场景中进行的实验证明了我们的人类辅助框架在各种操作任务中具有更好的泛化性和鲁棒性。我们相信这项工作可以通过人机协作带来对VLA模型高效稳定优化的见解。代码和数据集发布在https://github.com/GeWu-Lab/Action-Preference-Optimization。

更新时间: 2025-10-30 04:04:19

领域: cs.RO,cs.AI

下载: http://arxiv.org/abs/2506.07127v3

		自动登录	找回密码
密码			立即注册