找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 9|回复: 0

FlowRL:匹配LLM推理的奖励分布

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 14:43:30 | 显示全部楼层 |阅读模式
摘要: 我们提出了FlowRL:通过流平衡匹配完整奖励分布,而不是在大型语言模型(LLM)强化学习(RL)中最大化奖励。最近的高级推理模型采用最大化奖励的方法(如PPO和GRPO),这些方法往往过度优化主导奖励信号,同时忽略不太频繁但有效的推理路径,从而降低多样性。相反,我们使用可学习的分区函数将标量奖励转换为归一化目标分布,然后最小化策略与目标分布之间的反向KL散度。我们将这个想法实现为一个流平衡的优化方法,促进多样化的探索和可推广的推理轨迹。我们在数学和代码推理任务上进行实验:FlowRL在数学基准测试中平均提高了10.0%,优于GRPO的5.1%,并在代码推理任务上表现更好。这些结果突显了奖励分布匹配作为LLM强化学习中有效探索和多样化推理的关键步骤。
更新时间: 2025-09-18 17:56:36
领域: cs.LG,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:14 , Processed in 0.090035 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表