通过焦点组合：基于场景图的原子技能

于红博 · 发表于 2025-9-22 19:40:39

摘要: 通用机器人的一个关键要求是组合泛化能力 - 将原子技能结合起来解决复杂、长期任务的能力。虽然先前的研究主要集中在合成一个规划器来序列化预先学习的技能，但单个技能本身的稳健执行仍然具有挑战性，因为视觉动作策略往往在由场景组合引起的分布偏移下失败。为了解决这个问题，我们引入了基于场景图的表示，重点关注与任务相关的对象和关系，从而减轻对无关变化的敏感性。基于这一思想，我们开发了一个基于场景图技能学习框架，将图神经网络与基于扩散的模仿学习相结合，进一步将“专注”场景图技能与基于视觉-语言模型（VLM）的任务规划器相结合。在模拟和实际操纵任务中的实验表明，成功率远高于最先进的基线，突出了在长期任务中的改进稳健性和组合泛化能力。

更新时间: 2025-09-19 15:03:18

领域: cs.RO,cs.AI

下载: http://arxiv.org/abs/2509.16053v1

		自动登录	找回密码
密码			立即注册

通过焦点组合：基于场景图的原子技能

浏览过的版块