找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 24|回复: 0

See&Trek:训练免费的多模态大语言模型空间提示

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:39:46 | 显示全部楼层 |阅读模式
摘要: 我们介绍了SEE&TREK,这是第一个专为增强多模式大型语言模型(MLLMS)在仅视觉约束下的空间理解而设计的无需训练的提示框架。尽管先前的努力已经整合了深度或点云等模态以改进空间推理,但纯视觉空间理解仍未得到充分探索。SEE&TREK通过专注于两个核心原则来填补这一空白:增加视觉多样性和运动重建。对于视觉多样性,我们进行了最大语义丰富采样,利用一个现成的感知模型提取语义丰富的关键帧,捕捉场景结构。对于运动重建,我们模拟视觉轨迹并将相对空间位置编码到关键帧中,以保留空间关系和时间连贯性。我们的方法无需训练和GPU支持,仅需要进行一次前向传递,并可以无缝集成到现有的MLLM中。在VSI-B ENCH和STI-B ENCH上进行的大量实验表明,SEE&TREK始终提升了各种MLLM在不同空间推理任务中的性能,最高提升为+3.5%,为更强大的空间智能提供了一个有前途的道路。
更新时间: 2025-09-19 15:30:26
领域: cs.CV,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-2 07:17 , Processed in 0.079530 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表