时空飞行员：时空中动态场景的生成渲染

于红博 · 发表于 2026-1-4 22:12:57

摘要: 我们提出了SpaceTimePilot，这是一个视频扩散模型，可以将空间和时间分离，用于可控的生成渲染。给定一个单眼视频，SpaceTimePilot可以独立地在生成过程中改变摄像机视角和运动序列，重新渲染场景，实现对空间和时间的连续和任意探索。为了实现这一目标，我们在扩散过程中引入了一种有效的动画时间嵌入机制，允许显式控制输出视频的运动序列与源视频的运动序列之间的关系。由于没有数据集提供具有连续时间变化的相同动态场景的配对视频，我们提出了一个简单但有效的时间扭曲训练方案，重新利用现有的多视角数据集来模仿时间差异。这种策略有效地监督模型学习时间控制，并实现稳健的空间-时间分离。为了进一步提高双重控制的精度，我们引入了两个额外的组件：一个改进的摄像头调节机制，允许从第一帧开始改变摄像头，以及CamxTime，这是第一个提供完全自由的空间-时间视频轨迹的合成全覆盖渲染数据集。在时间扭曲方案和CamxTime数据集上进行联合训练可以获得更精确的时间控制。我们在真实世界和合成数据上评估了SpaceTimePilot，展示了明显的空间-时间分离和与先前工作相比的强大结果。项目页面：https://zheninghuang.github.io/Space-Time-Pilot/ 代码：https://github.com/ZheningHuang/spacetimepilot

更新时间: 2025-12-31 18:59:57

领域: cs.CV,cs.AI,cs.RO

下载: http://arxiv.org/abs/2512.25075v1

		自动登录	找回密码
密码			立即注册