找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

DragFlow:通过基于区域的监督释放DiT先验知识用于拖动编辑

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 3 天前 | 显示全部楼层 |阅读模式
摘要: 基于拖拽的图像编辑长期以来一直受到目标区域中的失真的困扰,主要是因为早期基础模型Stable Diffusion的先验不足以将优化后的潜变量投影回自然图像流形。随着从基于UNet的DDPMs向更可扩展的具有流匹配的DiT(例如SD3.5、FLUX)的转变,生成先验变得更加强大,促进了各种编辑任务的进展。然而,基于拖拽的编辑尚未从这些更强大的先验中受益。本研究提出了第一个有效利用FLUX丰富先验进行基于拖拽编辑的框架,命名为DragFlow,在基线上取得了显著的进展。我们首先展示直接将基于点的拖拽编辑应用于DiT表现不佳:与UNet的高度压缩特征不同,DiT特征结构不足以提供可靠的点对点运动监督。为了克服这一限制,DragFlow引入了基于区域的编辑范式,通过仿射变换实现更丰富且更一致的特征监督。此外,我们整合了预训练的开放领域个性化适配器(例如IP-Adapter)以增强主题一致性,同时通过基于梯度掩码的硬约束保持背景保真度。多模态大语言模型(MLLMs)进一步用于解决任务歧义。为了评估,我们整理了一个新颖的基于区域拖拽的基准数据集(ReD Bench),其中包含区域级拖拽指令。在DragBench-DR和ReD Bench上进行的广泛实验表明,DragFlow超越了基于点和基于区域的基线,树立了基于拖拽的图像编辑的新技术水平。代码和数据集将在发表后公开提供。
更新时间: 2025-10-23 17:58:02
领域: cs.CV,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 11:03 , Processed in 0.072179 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表