VAMOS：一种用于能力调节和可操控导航的分层视觉-语言-动作模型

于红博 · 发表于 2025-10-27 00:17:37

摘要: 机器人导航中的一个基本挑战在于学习可以泛化到不同环境的策略，同时符合特定实体（例如，四足动物可以走上楼梯，但探测器不能）的独特物理约束和能力。我们提出了VAMOS，一种分层VLA，将语义规划与实体接地分离开来：一个通用规划器从各种各样的开放世界数据中学习，而一个专门的可用性模型在安全、低成本的模拟中学习机器人的物理约束和能力。我们通过精心设计接口实现了这种分离，使高级规划器可以直接在图像空间提出候选路径，而可用性模型则对其进行评估和重新排名。我们的真实世界实验表明，VAMOS在室内和复杂室外导航中均比最先进的基于模型和端到端学习方法具有更高的成功率。我们还展示了我们的分层设计使不同实体之间的导航跨足机器人和轮式机器人成为可能，并且可以轻松地使用自然语言进行控制。真实世界的消融实验证实了专家模型对实体接地的关键作用，使单一高级规划器可以部署在物理上不同的轮式和足式机器人上。最后，该模型显著提高了单一机器人的可靠性，通过拒绝物理上不可行的计划，成功率提高了3倍。网站：https://vamos-vla.github.io/

更新时间: 2025-10-23 17:59:45

领域: cs.RO,cs.AI,cs.LG

下载: http://arxiv.org/abs/2510.20818v1

		自动登录	找回密码
密码			立即注册

VAMOS：一种用于能力调节和可操控导航的分层视觉-语言-动作模型

浏览过的版块