摘要: 3D视觉定位旨在基于自然语言描述在3D场景中定位物体。现有方法依赖于预定义的对象查找表(OLT)来查询视觉语言模型(VLMs)以推理物体位置,这限制了在未定义或未预见目标的场景中的应用。为解决这一问题,我们提出了OpenGround,一个用于开放世界3D视觉定位的新颖零样本框架。OpenGround的核心是基于主动认知推理(ACR)模块,旨在通过逐步扩展VLM的认知范围来克服预定义OLT的基本限制。ACR模块通过认知任务链执行类似人类的目标感知,并积极推理与上下文相关的物体,从而通过动态更新的OLT扩展VLM认知。这使OpenGround能够与预定义和开放世界类别一起运作。我们还提出了一个名为OpenTarget的新数据集,其中包含超过7000个物体描述对,用于评估我们的方法在开放世界场景中的表现。广泛的实验表明,OpenGround在Nr3D上取得了竞争性的性能,在ScanRefer上是最先进的,并在OpenTarget上实现了显著的17.6%的改善。项目页面请访问https://why-102.github.io/openground.io/。 更新时间: 2025-12-31 10:56:28 领域: cs.CV,cs.AI
|