找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 5|回复: 0

停止总结:最小形式的信用分配是推理所需的所有过程奖励模型。

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 3 天前 | 显示全部楼层 |阅读模式
摘要: 流程奖励模型(PRMs)已被证明在具有挑战性的推理任务中的大型语言模型(LLMs)的测试时间扩展方面非常有效。然而,PRMs存在奖励欺骗问题,限制了它们在强化微调中的成功应用。在本文中,我们确定了PRM引起的奖励欺骗的主要原因:在强化学习(RL)中定义值为累积γ衰减未来奖励的经典求和形式信用分配,很容易导致LLMs欺骗高奖励步骤。为了解决这个问题,我们提出了PURE:流程监督强化学习。PURE的关键创新是将值函数制定为未来奖励的最小值形式信用分配。这种方法通过限制值函数范围并更加合理地分配优势,显著减轻了奖励欺骗。通过对3个基本模型进行广泛实验,我们展示了启用最小值形式信用分配的基于PRM的方法在仅30%的步骤内实现可验证奖励方法的可比推理性能。相比之下,经典的求和形式信用分配甚至在训练开始时就崩溃!此外,当我们仅用10%的可验证奖励补充PRM微调时,我们进一步减轻了奖励欺骗,并在我们的实验中基于Qwen2.5-Math-7B产生了最佳微调模型,实现了AMC23上82.5%的准确率和5个基准测试中平均53.3%的准确率。此外,我们总结了观察到的奖励欺骗案例,并分析了训练崩溃的原因。我们在https://github.com/CJReinforce/PURE发布了我们的代码和模型权重。
更新时间: 2025-10-23 16:28:10
领域: cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 03:57 , Processed in 0.069804 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表