找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 33|回复: 0

看、指、飞:一种面向通用无人机导航的无需学习的VLM框架

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:43:25 | 显示全部楼层 |阅读模式
摘要: 我们提出了See, Point, Fly (SPF),这是一个基于视觉-语言模型(VLMs)构建的无需训练的空中视觉-语言导航(AVLN)框架。SPF能够根据任何类型的自由形式指令在任何环境中导航到任何目标。与现有基于VLM的方法不同,这些方法将行动预测视为文本生成任务,我们的关键洞察是将AVLN的行动预测视为2D空间定位任务。SPF利用VLMs将模糊的语言指令分解为输入图像上的2D航点的迭代注释。除了预测的行驶距离外,SPF还将预测的2D航点转换为3D位移向量,作为无人机的行动指令。此外,SPF还自适应地调整行驶距离,以促进更高效的导航。值得注意的是,SPF以闭环控制方式进行导航,使无人机能够在动态环境中跟随动态目标。SPF在DRL模拟基准测试中取得了新的技术水平,绝对优势高达63%超过了以前最佳方法。在广泛的现实世界评估中,SPF以较大的优势优于强大的基线。我们还进行了全面的消融研究,以突出我们设计选择的有效性。最后,SPF展现了对不同VLMs的显著泛化能力。项目页面:https://spf-web.pages.dev
更新时间: 2025-09-26 17:59:59
领域: cs.RO,cs.AI,cs.CL,cs.CV,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:24 , Processed in 0.071504 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表