|
摘要: 基于拖拽的图像编辑长期以来一直受到目标区域中的失真的困扰,主要是因为早期基础模型Stable Diffusion的先验不足以将优化后的潜变量投影回自然图像流形。随着从基于UNet的DDPMs向更可扩展的具有流匹配的DiT(例如SD3.5、FLUX)的转变,生成先验变得更加强大,促进了各种编辑任务的进展。然而,基于拖拽的编辑尚未从这些更强大的先验中受益。本研究提出了第一个有效利用FLUX丰富先验进行基于拖拽编辑的框架,命名为DragFlow,在基线上取得了显著的进展。我们首先展示直接将基于点的拖拽编辑应用于DiT表现不佳:与UNet的高度压缩特征不同,DiT特征结构不足以提供可靠的点对点运动监督。为了克服这一限制,DragFlow引入了基于区域的编辑范式,通过仿射变换实现更丰富且更一致的特征监督。此外,我们整合了预训练的开放领域个性化适配器(例如IP-Adapter)以增强主题一致性,同时通过基于梯度掩码的硬约束保持背景保真度。多模态大语言模型(MLLMs)进一步用于解决任务歧义。为了评估,我们整理了一个新颖的基于区域拖拽的基准数据集(ReD Bench),其中包含区域级拖拽指令。在DragBench-DR和ReD Bench上进行的广泛实验表明,DragFlow超越了基于点和基于区域的基线,树立了基于拖拽的图像编辑的新技术水平。代码和数据集将在发表后公开提供。 更新时间: 2025-10-23 17:58:02 领域: cs.CV,cs.AI,cs.LG
|