停止总结：最小形式的信用分配是推理所需的所有过程奖励模型。

于红博 · 发表于 3 天前

摘要: 流程奖励模型（PRMs）已被证明在具有挑战性的推理任务中的大型语言模型（LLMs）的测试时间扩展方面非常有效。然而，PRMs存在奖励欺骗问题，限制了它们在强化微调中的成功应用。在本文中，我们确定了PRM引起的奖励欺骗的主要原因：在强化学习（RL）中定义值为累积γ衰减未来奖励的经典求和形式信用分配，很容易导致LLMs欺骗高奖励步骤。为了解决这个问题，我们提出了PURE：流程监督强化学习。PURE的关键创新是将值函数制定为未来奖励的最小值形式信用分配。这种方法通过限制值函数范围并更加合理地分配优势，显著减轻了奖励欺骗。通过对3个基本模型进行广泛实验，我们展示了启用最小值形式信用分配的基于PRM的方法在仅30%的步骤内实现可验证奖励方法的可比推理性能。相比之下，经典的求和形式信用分配甚至在训练开始时就崩溃！此外，当我们仅用10%的可验证奖励补充PRM微调时，我们进一步减轻了奖励欺骗，并在我们的实验中基于Qwen2.5-Math-7B产生了最佳微调模型，实现了AMC23上82.5％的准确率和5个基准测试中平均53.3％的准确率。此外，我们总结了观察到的奖励欺骗案例，并分析了训练崩溃的原因。我们在https://github.com/CJReinforce/PURE发布了我们的代码和模型权重。

更新时间: 2025-10-23 16:28:10

领域: cs.AI,cs.LG

下载: http://arxiv.org/abs/2504.15275v3

		自动登录	找回密码
密码			立即注册

停止总结：最小形式的信用分配是推理所需的所有过程奖励模型。

浏览过的版块