|
摘要: 视频生成在生成式深度学习的进步中取得了显著进展。然而,生成长序列仍然是一个重要的挑战。生成的视频不仅应该显示连贯和持续的运动,而且还应该在场景的连续中呈现有意义的运动。GANs、VAEs和Diffusion Networks等模型已经被用于生成短视频序列,通常最多达到16帧。在本文中,我们首先提出了一种新型的视频生成器,通过启用基于对抗的无条件视频生成器与变分编码器相结合,类似于VAE-GAN混合结构。所提出的模型,与其他视频深度学习处理框架一样,包括两个处理分支,一个用于内容,另一个用于运动。然而,现有模型在生成的视频的时间尺度上存在困难。传统方法在试图增加生成视频长度时往往会导致视频质量下降,尤其是对于极长序列。为了克服这一限制,我们的研究通过采用一种新颖的、记忆效率高的方法,扩展了最初提出的VAE-GAN视频生成模型,以生成由数百或数千帧组成的长视频,确保其时间连续性、一致性和动态性。我们的方法利用了一个具有召回机制的马尔可夫链框架,其中每个状态代表一个短长度的VAE-GAN视频生成器。这种设置使得生成的视频子序列可以进行顺序连接,保持时间依赖性,从而产生有意义的长视频序列。 更新时间: 2025-12-31 10:52:41 领域: cs.CV,cs.AI
|