找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4|回复: 0

2D系统中用于3D多物体场景的视频和语言对齐与多信息无导数控制

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:03:24 | 显示全部楼层 |阅读模式
摘要: 基于2D视觉输入训练的跨模态系统在处理3D场景时会出现维度转变。一个场景内摄像头弥合了维度差距,但需要学习一个控制模块。我们引入了一种新方法,通过无导数优化的后悔最小化改进多变量互信息估计。我们的算法使得基于2D视觉输入训练的现成跨模态系统能够在线适应物体遮挡并区分特征。表达式测量和基于价值的优化的配对有助于控制场景内摄像头直接从视觉-语言模型的嘈杂输出中学习。由此产生的流水线在不经过预训练或微调的情况下提高了在多物体3D场景上的跨模态任务性能。
更新时间: 2025-12-31 12:39:03
领域: cs.CV,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:00 , Processed in 0.096816 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表