找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 39|回复: 0

SPARKE:通过RKE分数在扩散模型中实现可扩展的提示感知多样性和新颖性引导

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 21:43:13 | 显示全部楼层 |阅读模式
摘要: 扩散模型在高保真图像合成和提示引导生成建模中取得了显著的成功。然而,在生成的提示引导扩散模型样本中确保充分的多样性仍然是一个挑战,特别是当提示跨越广泛的语义范围,并且生成数据的多样性需要以提示感知的方式在语义上相似的提示之间进行评估时。最近的方法引入了通过多样性度量来鼓励更多样化的生成。在这项工作中,我们通过提出可扩展的提示感知 R\'eny 核熵多样性引导(SPARKE)方法,扩展了基于多样性度量的方法,用于提示感知的多样性引导。SPARKE利用条件熵进行多样性引导,动态地将多样性测量条件在相似的提示上,并实现提示感知的多样性控制。虽然基于熵的引导方法增强了提示感知的多样性,但其依赖于基于矩阵的熵分数在大规模生成环境中提出了计算上的挑战。为了解决这个问题,我们专注于条件潜在RKE分数引导的特殊情况,将熵计算和基于梯度的优化复杂度从一般熵度量的$O(n^3)$降低到$O(n)$。降低的计算复杂性允许在不同提示上的数千个生成轮次上进行多样性引导采样。我们在几个文本到图像扩散模型上对SPARKE方法进行了数值测试,证明了所提出的方法改善了生成数据的提示感知多样性,而不会产生显著的计算成本。我们在项目页面上发布了我们的代码:https://mjalali.github.io/SPARKE
更新时间: 2025-10-30 07:25:20
领域: cs.CV,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 15:42 , Processed in 0.083534 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表