找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

OpenGround:基于主动认知的开放世界3D视觉定位推理

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:05:21 | 显示全部楼层 |阅读模式
摘要: 3D视觉定位旨在基于自然语言描述在3D场景中定位物体。现有方法依赖于预定义的对象查找表(OLT)来查询视觉语言模型(VLMs)以推理物体位置,这限制了在未定义或未预见目标的场景中的应用。为解决这一问题,我们提出了OpenGround,一个用于开放世界3D视觉定位的新颖零样本框架。OpenGround的核心是基于主动认知推理(ACR)模块,旨在通过逐步扩展VLM的认知范围来克服预定义OLT的基本限制。ACR模块通过认知任务链执行类似人类的目标感知,并积极推理与上下文相关的物体,从而通过动态更新的OLT扩展VLM认知。这使OpenGround能够与预定义和开放世界类别一起运作。我们还提出了一个名为OpenTarget的新数据集,其中包含超过7000个物体描述对,用于评估我们的方法在开放世界场景中的表现。广泛的实验表明,OpenGround在Nr3D上取得了竞争性的性能,在ScanRefer上是最先进的,并在OpenTarget上实现了显著的17.6%的改善。项目页面请访问https://why-102.github.io/openground.io/
更新时间: 2025-12-31 10:56:28
领域: cs.CV,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 15:42 , Processed in 0.085412 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表