|
摘要: 使用视觉-语言-行动(VLA)模型进行机器人的现实世界强化学习(RL)受到稀疏的手工制作奖励和低效的探索的限制。我们引入了VLAC,这是一个建立在InternVL上的通用过程奖励模型,经过大规模异构数据集的训练。给定成对观察和语言目标,它输出密集的进展增量和完成信号,消除了特定任务奖励工程,并支持一次性在未知任务和环境中进行上下文转移。VLAC在视觉-语言数据集上进行训练,以加强感知、对话和推理能力,同时结合机器人和人类轨迹数据来支持行动生成和进展估计,并通过构建大量负面和语义不匹配的样本来进一步增强对无关提示的排除以及检测回归或停滞。通过提示控制,单个VLAC模型交替生成奖励和行动令牌,统一了评论家和策略。部署在异步的现实世界RL循环中,我们采用了分级的人机协作协议(离线演示回放、回报和探索、人类引导探索),加速探索并稳定早期学习。在四个不同的现实世界操纵任务中,VLAC将成功率从约30\%提高到约90\%,在200个现实世界交互周期内;加入人机协作干预可以进一步提高50%的样本效率,并实现最终成功率高达100%。 更新时间: 2025-09-19 12:44:29 领域: cs.RO,cs.AI
|