摘要: 在这篇论文中,我们调查了最近在大型语言模型(LLMs)中使用强化学习(RL)进行推理的进展。强化学习在推动LLMs能力的前沿方面取得了显著成功,特别是在解决数学和编码等复杂逻辑任务方面。因此,强化学习已经成为将LLMs转化为LRMs的基础方法。随着领域的快速发展,进一步扩展RL用于LRMs现在面临基础性挑战,不仅在计算资源方面,还在算法设计、训练数据和基础设施方面。因此,现在是时机重新审视该领域的发展,重新评估其轨迹,并探索增强RL可扩展性朝向人工超智能(ASI)的策略。特别是,我们研究了将RL应用于LLMs和LRMs的推理能力的研究,特别是自DeepSeek-R1发布以来,包括基础组件、核心问题、训练资源和下游应用,以确定未来机遇和方向。我们希望这篇综述能促进未来对更广泛推理模型的RL研究。Github链接:https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs 更新时间: 2025-09-18 15:28:02 领域: cs.CL,cs.AI,cs.LG
|