一个关于大型推理模型强化学习的调查

于红博 · 发表于 2025-9-21 14:58:52

摘要: 在这篇论文中，我们调查了最近在大型语言模型（LLMs）中使用强化学习（RL）进行推理的进展。强化学习在推动LLMs能力的前沿方面取得了显著成功，特别是在解决数学和编码等复杂逻辑任务方面。因此，强化学习已经成为将LLMs转化为LRMs的基础方法。随着领域的快速发展，进一步扩展RL用于LRMs现在面临基础性挑战，不仅在计算资源方面，还在算法设计、训练数据和基础设施方面。因此，现在是时机重新审视该领域的发展，重新评估其轨迹，并探索增强RL可扩展性朝向人工超智能（ASI）的策略。特别是，我们研究了将RL应用于LLMs和LRMs的推理能力的研究，特别是自DeepSeek-R1发布以来，包括基础组件、核心问题、训练资源和下游应用，以确定未来机遇和方向。我们希望这篇综述能促进未来对更广泛推理模型的RL研究。Github链接：https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

更新时间: 2025-09-18 15:28:02

领域: cs.CL,cs.AI,cs.LG

下载: http://arxiv.org/abs/2509.08827v2

		自动登录	找回密码
密码			立即注册