推理课程：从数学中引导广义LLM推理

于红博 · 发表于 2025-11-2 21:52:37

摘要: 强化学习（RL）可以在大型语言模型（LLMs）中引发强烈的推理，然而大多数开放性努力集中在数学和编码上。我们提出了Reasoning Curriculum，这是一个简单的两阶段课程，首先在与预训练对齐的领域（如数学）中引发推理技能，然后通过联合RL在其他领域中调整和完善这些技能。第一阶段进行简短的冷启动，然后进行仅数学的RL，以验证奖励来发展推理技能。第二阶段在混合领域数据上运行联合RL，以转移和巩固这些技能。该课程是最小的，不依赖于骨干结构，除了标准的可验证性检查之外，不需要专门的奖励模型。在Qwen3-4B和Llama-3.1-8B上评估跨多领域套件，推理课程带来了一致的收益。消融和认知技能分析表明，两个阶段都是必要的，而数学优先引发增加了解决复杂问题所必需的认知行为。Reasoning Curriculum提供了一个紧凑、易于采用的通用推理配方。

更新时间: 2025-10-30 04:56:44

领域: cs.AI,cs.CL

下载: http://arxiv.org/abs/2510.26143v1

		自动登录	找回密码
密码			立即注册