找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 25|回复: 0

DiffusionNFT:前向过程的在线扩散强化

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:37:53 | 显示全部楼层 |阅读模式
摘要: 在线强化学习(RL)一直是后训练语言模型的核心,但将其扩展到扩散模型仍然具有挑战性,因为似然性是难以处理的。最近的研究将反向抽样过程离散化,以实现类似GRPO风格的训练,但它们继承了基本缺陷,包括求解器限制、正向-反向不一致性以及与无分类器引导(CFG)的复杂集成。我们引入了扩散负向感知微调(DiffusionNFT),这是一种新的在线RL范式,通过流匹配直接优化扩散模型的正向过程。DiffusionNFT对比正向和负向生成,以定义隐式策略改进方向,自然地将强化信号纳入监督学习目标。这种表述使得训练可以使用任意黑盒求解器,消除了对似然性估计的需求,只需要干净的图像而不需要采样轨迹进行策略优化。与FlowGRPO在面对面比较中相比,DiffusionNFT的效率提高了25倍,同时无需CFG。例如,DiffusionNFT在1k步内将GenEval分数从0.24提高到0.98,而FlowGRPO在超过5k步并额外使用CFG的情况下达到0.95。通过利用多个奖励模型,DiffusionNFT显著提升了在每个基准测试中SD3.5-Medium的性能。
更新时间: 2025-09-19 16:09:33
领域: cs.LG,cs.AI,cs.CV

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-2 07:16 , Processed in 0.073043 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表