找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 44|回复: 0

人在环路中的在线拒绝抽样用于机器人操作

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:48:17 | 显示全部楼层 |阅读模式
摘要: 强化学习(RL)被广泛应用于生成稳健的机器人操作策略,但使用RL对视觉-语言-动作(VLA)模型进行微调可能会不稳定,原因是中间步骤中价值估计不准确和监督稀疏。相比之下,模仿学习(IL)容易训练但通常表现不佳,因为它是离线的。在本文中,我们提出了Hi-ORS,这是一种简单而有效的后训练方法,利用拒绝采样实现训练稳定性和高稳健性。Hi-ORS通过在线微调时过滤出负面奖励样本来稳定价值估计,并采用基于奖励加权的监督训练目标来提供密集的中间步骤监督。为了进行系统研究,我们开发了一个异步推理-训练框架,支持灵活的在线人机交互校正,这些校正作为明确的指导,帮助学习错误恢复行为。在三个现实世界任务和两个具体实施中,Hi-ORS只需1.5小时的真实世界训练,对接触丰富的操作进行微调,效果明显优于RL和IL的基准测试,在效率和效果上均表现出色。值得注意的是,经过微调的策略在测试时间上表现出强大的可扩展性,可可靠地执行复杂的错误恢复行为,从而实现更好的性能。
更新时间: 2025-10-30 11:53:08
领域: cs.RO,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:47 , Processed in 0.085778 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表