|
摘要: 强化学习已被证明对于微调大型语言模型(LLMs)非常有效,显著增强了其在数学和代码生成等领域的推理能力。影响强化学习微调成功的一个关键因素是训练课程:即呈现训练问题的顺序。虽然随机课程常作为常见基线,但它们仍然不够优化;手动设计的课程往往过于依赖启发式方法,而在线过滤方法可能会造成计算上的限制。为了解决这些限制,我们提出了自进化课程(SEC),这是一种自动化课程学习方法,它与强化学习微调过程同时学习课程策略。我们的方法将课程选择视为一个非静态多臂老虎机问题,将每个问题类别(例如难度级别或问题类型)视为一个独立的臂。我们利用政策梯度方法中的绝对优势作为即时学习增益的替代度量。在每个训练步骤中,课程策略选择类别以最大化这一奖励信号,并使用TD(0)方法进行更新。在三个不同的推理领域:规划、归纳推理和数学中,我们的实验证明SEC显著提高了模型的推理能力,使其能够更好地泛化到更难的、分布外的测试问题。此外,我们的方法在同时微调多个推理领域时实现了更好的技能平衡。这些发现突显了SEC作为LLMs强化学习微调的一种有前途的策略。 更新时间: 2025-10-30 07:03:09 领域: cs.AI,cs.LG
|