全效应：统一和空间可控的视觉效果生成

于红博 · 发表于 2025-11-2 20:09:18

摘要: 视觉效果（VFX）是现代电影制作中至关重要的视觉增强技术。虽然视频生成模型为VFX制作提供了成本效益的解决方案，但目前的方法受到每种效果LoRA训练的限制，这限制了生成到单个效果。这一基本限制阻碍了需要空间可控的复合效果的应用，即在指定位置同时生成多个效果。然而，将不同效果集成到一个统一框架中面临着重大挑战：在多VFX联合训练过程中受到效果变化和空间不可控性的干扰。为了应对这些挑战，我们提出了Omni-Effects，这是一个能够生成快速引导效果和空间可控的复合效果的首个统一框架。我们的框架的核心包括两个关键创新：（1）基于LoRA的专家组混合模型（LoRA-MoE），它采用一组专家LoRA，将不同效果整合到一个统一模型中，有效减轻跨任务干扰。（2）空间感知提示（SAP）将空间蒙版信息整合到文本标记中，实现精确的空间控制。此外，我们引入了一个独立信息流（IIF）模块，集成在SAP中，将对应于单个效果的控制信号隔离，以防止任何不必要的混合。为了促进这项研究，我们通过结合图像编辑和首尾帧到视频（FLF2V）合成的新型数据收集流程构建了一个全面的VFX数据集Omni-VFX，并引入了一个专门的VFX评估框架，用于验证模型的性能。大量实验证明，Omni-Effects实现了精确的空间控制和多样化的效果生成，使用户能够指定所需效果的类别和位置。

更新时间: 2025-10-30 08:09:13

领域: cs.CV,cs.AI

下载: http://arxiv.org/abs/2508.07981v3

		自动登录	找回密码
密码			立即注册