看、指、飞：一种面向通用无人机导航的无需学习的VLM框架

于红博 · 发表于 2025-9-30 19:43:25

摘要: 我们提出了See, Point, Fly (SPF)，这是一个基于视觉-语言模型（VLMs）构建的无需训练的空中视觉-语言导航（AVLN）框架。SPF能够根据任何类型的自由形式指令在任何环境中导航到任何目标。与现有基于VLM的方法不同，这些方法将行动预测视为文本生成任务，我们的关键洞察是将AVLN的行动预测视为2D空间定位任务。SPF利用VLMs将模糊的语言指令分解为输入图像上的2D航点的迭代注释。除了预测的行驶距离外，SPF还将预测的2D航点转换为3D位移向量，作为无人机的行动指令。此外，SPF还自适应地调整行驶距离，以促进更高效的导航。值得注意的是，SPF以闭环控制方式进行导航，使无人机能够在动态环境中跟随动态目标。SPF在DRL模拟基准测试中取得了新的技术水平，绝对优势高达63%超过了以前最佳方法。在广泛的现实世界评估中，SPF以较大的优势优于强大的基线。我们还进行了全面的消融研究，以突出我们设计选择的有效性。最后，SPF展现了对不同VLMs的显著泛化能力。项目页面：https://spf-web.pages.dev

更新时间: 2025-09-26 17:59:59

领域: cs.RO,cs.AI,cs.CL,cs.CV,cs.LG

下载: http://arxiv.org/abs/2509.22653v1

		自动登录	找回密码
密码			立即注册

看、指、飞：一种面向通用无人机导航的无需学习的VLM框架

浏览过的版块