DragFlow：通过基于区域的监督释放DiT先验知识用于拖动编辑

于红博 · 发表于 2025-10-27 00:19:22

摘要: 基于拖拽的图像编辑长期以来一直受到目标区域中的失真的困扰，主要是因为早期基础模型Stable Diffusion的先验不足以将优化后的潜变量投影回自然图像流形。随着从基于UNet的DDPMs向更可扩展的具有流匹配的DiT（例如SD3.5、FLUX）的转变，生成先验变得更加强大，促进了各种编辑任务的进展。然而，基于拖拽的编辑尚未从这些更强大的先验中受益。本研究提出了第一个有效利用FLUX丰富先验进行基于拖拽编辑的框架，命名为DragFlow，在基线上取得了显著的进展。我们首先展示直接将基于点的拖拽编辑应用于DiT表现不佳：与UNet的高度压缩特征不同，DiT特征结构不足以提供可靠的点对点运动监督。为了克服这一限制，DragFlow引入了基于区域的编辑范式，通过仿射变换实现更丰富且更一致的特征监督。此外，我们整合了预训练的开放领域个性化适配器（例如IP-Adapter）以增强主题一致性，同时通过基于梯度掩码的硬约束保持背景保真度。多模态大语言模型（MLLMs）进一步用于解决任务歧义。为了评估，我们整理了一个新颖的基于区域拖拽的基准数据集（ReD Bench），其中包含区域级拖拽指令。在DragBench-DR和ReD Bench上进行的广泛实验表明，DragFlow超越了基于点和基于区域的基线，树立了基于拖拽的图像编辑的新技术水平。代码和数据集将在发表后公开提供。

更新时间: 2025-10-23 17:58:02

领域: cs.CV,cs.AI,cs.LG

下载: http://arxiv.org/abs/2510.02253v2

		自动登录	找回密码
密码			立即注册