摘要: 我们提出了See, Point, Fly (SPF),这是一个基于视觉-语言模型(VLMs)构建的无需训练的空中视觉-语言导航(AVLN)框架。SPF能够根据任何类型的自由形式指令在任何环境中导航到任何目标。与现有基于VLM的方法不同,这些方法将行动预测视为文本生成任务,我们的关键洞察是将AVLN的行动预测视为2D空间定位任务。SPF利用VLMs将模糊的语言指令分解为输入图像上的2D航点的迭代注释。除了预测的行驶距离外,SPF还将预测的2D航点转换为3D位移向量,作为无人机的行动指令。此外,SPF还自适应地调整行驶距离,以促进更高效的导航。值得注意的是,SPF以闭环控制方式进行导航,使无人机能够在动态环境中跟随动态目标。SPF在DRL模拟基准测试中取得了新的技术水平,绝对优势高达63%超过了以前最佳方法。在广泛的现实世界评估中,SPF以较大的优势优于强大的基线。我们还进行了全面的消融研究,以突出我们设计选择的有效性。最后,SPF展现了对不同VLMs的显著泛化能力。项目页面:https://spf-web.pages.dev 更新时间: 2025-09-26 17:59:59 领域: cs.RO,cs.AI,cs.CL,cs.CV,cs.LG
|