|
摘要: 我们提出了SpaceTimePilot,这是一个视频扩散模型,可以将空间和时间分离,用于可控的生成渲染。给定一个单眼视频,SpaceTimePilot可以独立地在生成过程中改变摄像机视角和运动序列,重新渲染场景,实现对空间和时间的连续和任意探索。为了实现这一目标,我们在扩散过程中引入了一种有效的动画时间嵌入机制,允许显式控制输出视频的运动序列与源视频的运动序列之间的关系。由于没有数据集提供具有连续时间变化的相同动态场景的配对视频,我们提出了一个简单但有效的时间扭曲训练方案,重新利用现有的多视角数据集来模仿时间差异。这种策略有效地监督模型学习时间控制,并实现稳健的空间-时间分离。为了进一步提高双重控制的精度,我们引入了两个额外的组件:一个改进的摄像头调节机制,允许从第一帧开始改变摄像头,以及CamxTime,这是第一个提供完全自由的空间-时间视频轨迹的合成全覆盖渲染数据集。在时间扭曲方案和CamxTime数据集上进行联合训练可以获得更精确的时间控制。我们在真实世界和合成数据上评估了SpaceTimePilot,展示了明显的空间-时间分离和与先前工作相比的强大结果。项目页面:https://zheninghuang.github.io/Space-Time-Pilot/ 代码:https://github.com/ZheningHuang/spacetimepilot 更新时间: 2025-12-31 18:59:57 领域: cs.CV,cs.AI,cs.RO
|