2D系统中用于3D多物体场景的视频和语言对齐与多信息无导数控制

于红博 · 发表于 2026-1-4 23:03:24

摘要: 基于2D视觉输入训练的跨模态系统在处理3D场景时会出现维度转变。一个场景内摄像头弥合了维度差距，但需要学习一个控制模块。我们引入了一种新方法，通过无导数优化的后悔最小化改进多变量互信息估计。我们的算法使得基于2D视觉输入训练的现成跨模态系统能够在线适应物体遮挡并区分特征。表达式测量和基于价值的优化的配对有助于控制场景内摄像头直接从视觉-语言模型的嘈杂输出中学习。由此产生的流水线在不经过预训练或微调的情况下提高了在多物体3D场景上的跨模态任务性能。

更新时间: 2025-12-31 12:39:03

领域: cs.CV,cs.AI

下载: http://arxiv.org/abs/2512.24826v1

		自动登录	找回密码
密码			立即注册