找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 16|回复: 0

WorldForge:通过无需训练的引导解锁视频扩散模型中新兴的3D/4D生成

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 14:51:08 | 显示全部楼层 |阅读模式
摘要: 最近的视频扩散模型展示了在空间智能任务中具有强大潜力,因为它们拥有丰富的潜在世界先验知识。然而,由于它们的有限可控性和几何不一致性,这种潜力受到了阻碍,导致它们强大的先验与在3D/4D任务中的实际应用之间存在差距。因此,目前的方法通常依赖于重新训练或微调,这会有损于预训练知识并带来高计算成本。为了解决这个问题,我们提出了WorldForge,这是一个无需训练的、推理时间的框架,由三个紧密耦合的模块组成。Intra-Step Recursive Refinement在推理过程中引入了递归细化机制,反复优化每个去噪步骤中的网络预测,以实现精准的轨迹注入。Flow-Gated Latent Fusion利用光流相似性来在潜在空间中将运动与外观分离,并有选择地将轨迹引导注入到与运动相关的通道中。Dual-Path Self-Corrective Guidance比较有引导和无引导去噪路径,以自适应地纠正由嘈杂或不对齐结构信号引起的轨迹漂移。这些组件共同注入细粒度、与轨迹对齐的指导,无需训练,实现了准确的运动控制和逼真的内容生成。在各种基准测试中进行的大量实验验证了我们方法在逼真性、轨迹一致性和视觉保真度方面的优越性。这项工作引入了一种新颖的可控视频合成的即插即用范例,为利用生成先验进行空间智能提供了新视角。
更新时间: 2025-09-18 16:40:47
领域: cs.GR,cs.AI,cs.CV

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:18 , Processed in 0.085375 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表