See&Trek：训练免费的多模态大语言模型空间提示

于红博 · 发表于 2025-9-22 19:39:46

摘要: 我们介绍了SEE&TREK，这是第一个专为增强多模式大型语言模型（MLLMS）在仅视觉约束下的空间理解而设计的无需训练的提示框架。尽管先前的努力已经整合了深度或点云等模态以改进空间推理，但纯视觉空间理解仍未得到充分探索。SEE&TREK通过专注于两个核心原则来填补这一空白：增加视觉多样性和运动重建。对于视觉多样性，我们进行了最大语义丰富采样，利用一个现成的感知模型提取语义丰富的关键帧，捕捉场景结构。对于运动重建，我们模拟视觉轨迹并将相对空间位置编码到关键帧中，以保留空间关系和时间连贯性。我们的方法无需训练和GPU支持，仅需要进行一次前向传递，并可以无缝集成到现有的MLLM中。在VSI-B ENCH和STI-B ENCH上进行的大量实验表明，SEE&TREK始终提升了各种MLLM在不同空间推理任务中的性能，最高提升为+3.5％，为更强大的空间智能提供了一个有前途的道路。

更新时间: 2025-09-19 15:30:26

领域: cs.CV,cs.AI

下载: http://arxiv.org/abs/2509.16087v1

		自动登录	找回密码
密码			立即注册

See&Trek：训练免费的多模态大语言模型空间提示

浏览过的版块