OpenGround：基于主动认知的开放世界3D视觉定位推理

于红博 · 发表于 2026-1-4 23:05:21

摘要: 3D视觉定位旨在基于自然语言描述在3D场景中定位物体。现有方法依赖于预定义的对象查找表（OLT）来查询视觉语言模型（VLMs）以推理物体位置，这限制了在未定义或未预见目标的场景中的应用。为解决这一问题，我们提出了OpenGround，一个用于开放世界3D视觉定位的新颖零样本框架。OpenGround的核心是基于主动认知推理（ACR）模块，旨在通过逐步扩展VLM的认知范围来克服预定义OLT的基本限制。ACR模块通过认知任务链执行类似人类的目标感知，并积极推理与上下文相关的物体，从而通过动态更新的OLT扩展VLM认知。这使OpenGround能够与预定义和开放世界类别一起运作。我们还提出了一个名为OpenTarget的新数据集，其中包含超过7000个物体描述对，用于评估我们的方法在开放世界场景中的表现。广泛的实验表明，OpenGround在Nr3D上取得了竞争性的性能，在ScanRefer上是最先进的，并在OpenTarget上实现了显著的17.6%的改善。项目页面请访问https://why-102.github.io/openground.io/。

更新时间: 2025-12-31 10:56:28

领域: cs.CV,cs.AI

下载: http://arxiv.org/abs/2512.23020v2

		自动登录	找回密码
密码			立即注册