|
摘要: 大型语言模型在短期推理任务上表现出色,但随着推理视野长度的增加,性能下降。现有的解决方法依赖于推理时间支撑或昂贵的步骤级监督,这两种方法都不容易扩展。在这项工作中,我们介绍了一种可扩展的方法,只使用现有丰富的短期数据来启动长期推理能力。我们的方法将简单问题合成为复杂的、任意长度的多步依赖链。我们使用只有结果奖励的课程对模型在这些数据上进行训练,该课程会自动增加复杂性,使RL训练能够进一步扩展而不会饱和。在实证方面,我们的方法具有非常好的泛化能力:对组成的六年级水平数学问题(GSM8K)进行课程培训,将长期、竞赛级别基准(GSM-Symbolic、MATH-500、AIME)的准确性提高了最多2.06倍。重要的是,我们的长期改进甚至在高pass@k时也比基线显著更高,表明模型可以在RL下学习新的推理路径。从理论上讲,我们展示了具有结果奖励的课程RL在样本复杂性上实现了指数级的改进,提供了与密集监督相媲美的训练信号。因此,h1引入了一种仅使用现有数据来扩展RL解决长期问题的高效路径。 更新时间: 2025-10-08 17:58:41 领域: cs.LG,cs.AI
|