找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 15|回复: 0

一个关于大型推理模型强化学习的调查

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 14:58:52 | 显示全部楼层 |阅读模式
摘要: 在这篇论文中,我们调查了最近在大型语言模型(LLMs)中使用强化学习(RL)进行推理的进展。强化学习在推动LLMs能力的前沿方面取得了显著成功,特别是在解决数学和编码等复杂逻辑任务方面。因此,强化学习已经成为将LLMs转化为LRMs的基础方法。随着领域的快速发展,进一步扩展RL用于LRMs现在面临基础性挑战,不仅在计算资源方面,还在算法设计、训练数据和基础设施方面。因此,现在是时机重新审视该领域的发展,重新评估其轨迹,并探索增强RL可扩展性朝向人工超智能(ASI)的策略。特别是,我们研究了将RL应用于LLMs和LRMs的推理能力的研究,特别是自DeepSeek-R1发布以来,包括基础组件、核心问题、训练资源和下游应用,以确定未来机遇和方向。我们希望这篇综述能促进未来对更广泛推理模型的RL研究。Github链接:https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
更新时间: 2025-09-18 15:28:02
领域: cs.CL,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:16 , Processed in 0.067294 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表