找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 16|回复: 0

一个用于机器人真实世界强化学习的视觉-语言-动作-评论家模型

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:49:39 | 显示全部楼层 |阅读模式
摘要: 使用视觉-语言-行动(VLA)模型进行机器人的现实世界强化学习(RL)受到稀疏的手工制作奖励和低效的探索的限制。我们引入了VLAC,这是一个建立在InternVL上的通用过程奖励模型,经过大规模异构数据集的训练。给定成对观察和语言目标,它输出密集的进展增量和完成信号,消除了特定任务奖励工程,并支持一次性在未知任务和环境中进行上下文转移。VLAC在视觉-语言数据集上进行训练,以加强感知、对话和推理能力,同时结合机器人和人类轨迹数据来支持行动生成和进展估计,并通过构建大量负面和语义不匹配的样本来进一步增强对无关提示的排除以及检测回归或停滞。通过提示控制,单个VLAC模型交替生成奖励和行动令牌,统一了评论家和策略。部署在异步的现实世界RL循环中,我们采用了分级的人机协作协议(离线演示回放、回报和探索、人类引导探索),加速探索并稳定早期学习。在四个不同的现实世界操纵任务中,VLAC将成功率从约30\%提高到约90\%,在200个现实世界交互周期内;加入人机协作干预可以进一步提高50%的样本效率,并实现最终成功率高达100%。
更新时间: 2025-09-19 12:44:29
领域: cs.RO,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 15:56 , Processed in 0.070011 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表