摘要: 流程奖励模型(PRMs)已被证明在具有挑战性的推理任务中的大型语言模型(LLMs)的测试时间扩展方面非常有效。然而,PRMs存在奖励欺骗问题,限制了它们在强化微调中的成功应用。在本文中,我们确定了PRM引起的奖励欺骗的主要原因:在强化学习(RL)中定义值为累积γ衰减未来奖励的经典求和形式信用分配,很容易导致LLMs欺骗高奖励步骤。为了解决这个问题,我们提出了PURE:流程监督强化学习。PURE的关键创新是将值函数制定为未来奖励的最小值形式信用分配。这种方法通过限制值函数范围并更加合理地分配优势,显著减轻了奖励欺骗。通过对3个基本模型进行广泛实验,我们展示了启用最小值形式信用分配的基于PRM的方法在仅30%的步骤内实现可验证奖励方法的可比推理性能。相比之下,经典的求和形式信用分配甚至在训练开始时就崩溃!此外,当我们仅用10%的可验证奖励补充PRM微调时,我们进一步减轻了奖励欺骗,并在我们的实验中基于Qwen2.5-Math-7B产生了最佳微调模型,实现了AMC23上82.5%的准确率和5个基准测试中平均53.3%的准确率。此外,我们总结了观察到的奖励欺骗案例,并分析了训练崩溃的原因。我们在https://github.com/CJReinforce/PURE发布了我们的代码和模型权重。 更新时间: 2025-10-23 16:28:10 领域: cs.AI,cs.LG
|