|
摘要: 最近的视频扩散模型展示了在空间智能任务中具有强大潜力,因为它们拥有丰富的潜在世界先验知识。然而,由于它们的有限可控性和几何不一致性,这种潜力受到了阻碍,导致它们强大的先验与在3D/4D任务中的实际应用之间存在差距。因此,目前的方法通常依赖于重新训练或微调,这会有损于预训练知识并带来高计算成本。为了解决这个问题,我们提出了WorldForge,这是一个无需训练的、推理时间的框架,由三个紧密耦合的模块组成。Intra-Step Recursive Refinement在推理过程中引入了递归细化机制,反复优化每个去噪步骤中的网络预测,以实现精准的轨迹注入。Flow-Gated Latent Fusion利用光流相似性来在潜在空间中将运动与外观分离,并有选择地将轨迹引导注入到与运动相关的通道中。Dual-Path Self-Corrective Guidance比较有引导和无引导去噪路径,以自适应地纠正由嘈杂或不对齐结构信号引起的轨迹漂移。这些组件共同注入细粒度、与轨迹对齐的指导,无需训练,实现了准确的运动控制和逼真的内容生成。在各种基准测试中进行的大量实验验证了我们方法在逼真性、轨迹一致性和视觉保真度方面的优越性。这项工作引入了一种新颖的可控视频合成的即插即用范例,为利用生成先验进行空间智能提供了新视角。 更新时间: 2025-09-18 16:40:47 领域: cs.GR,cs.AI,cs.CV
|