视觉-语言-动作模型在机器人技术中的应用：面向真实世界应用的综述

于红博 · 发表于 2025-10-9 16:38:05

摘要: 随着利用大型语言模型（LLMs）和视觉语言模型（VLMs）在机器人领域取得的进展日益增加，视觉-语言-动作（VLA）模型近期引起了重要关注。通过在规模上统一传统上被单独研究的视觉、语言和动作数据，VLA模型旨在学习能够横跨不同任务、物体、实体和环境的策略，以实现泛化能力。这种泛化能力预计将使机器人能够在最少或没有额外任务特定数据的情况下解决新领域任务，促进更加灵活和可伸缩的真实世界部署。与以往狭窄关注动作表示或高层模型架构的调查不同，本文提供了全面的、全栈的审查，整合了VLA系统的软件和硬件组件。具体而言，本文提供了VLAs的系统审查，涵盖了它们的策略和架构转换、架构和构建块、模态特定处理技术和学习范式。此外，为了支持VLAs在真实世界机器人应用中的部署，我们还审查了常用的机器人平台、数据收集策略、公开可用数据集、数据增强方法和评估基准。通过这一全面的调查，本文旨在为机器人学术界在将VLAs应用于真实世界机器人系统中提供实用指导。所有按训练方法、评估方法、模态和数据集分类的参考文献均可在我们项目网站的表格中找到：https://vla-survey.github.io。

更新时间: 2025-10-08 14:38:25

领域: cs.RO,cs.AI,cs.CV,cs.LG

下载: http://arxiv.org/abs/2510.07077v1

		自动登录	找回密码
密码			立即注册