使用强化学习通过引导LLMs对更长期未来进行推理

于红博 · 发表于 2025-10-9 16:30:22

摘要: 大型语言模型在短期推理任务上表现出色，但随着推理视野长度的增加，性能下降。现有的解决方法依赖于推理时间支撑或昂贵的步骤级监督，这两种方法都不容易扩展。在这项工作中，我们介绍了一种可扩展的方法，只使用现有丰富的短期数据来启动长期推理能力。我们的方法将简单问题合成为复杂的、任意长度的多步依赖链。我们使用只有结果奖励的课程对模型在这些数据上进行训练，该课程会自动增加复杂性，使RL训练能够进一步扩展而不会饱和。在实证方面，我们的方法具有非常好的泛化能力：对组成的六年级水平数学问题（GSM8K）进行课程培训，将长期、竞赛级别基准（GSM-Symbolic、MATH-500、AIME）的准确性提高了最多2.06倍。重要的是，我们的长期改进甚至在高pass@k时也比基线显著更高，表明模型可以在RL下学习新的推理路径。从理论上讲，我们展示了具有结果奖励的课程RL在样本复杂性上实现了指数级的改进，提供了与密集监督相媲美的训练信号。因此，h1引入了一种仅使用现有数据来扩展RL解决长期问题的高效路径。

更新时间: 2025-10-08 17:58:41

领域: cs.LG,cs.AI

下载: http://arxiv.org/abs/2510.07312v1

		自动登录	找回密码
密码			立即注册