找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 16|回复: 0

使用强化学习通过引导LLMs对更长期未来进行推理

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-10-9 16:30:22 | 显示全部楼层 |阅读模式
摘要: 大型语言模型在短期推理任务上表现出色,但随着推理视野长度的增加,性能下降。现有的解决方法依赖于推理时间支撑或昂贵的步骤级监督,这两种方法都不容易扩展。在这项工作中,我们介绍了一种可扩展的方法,只使用现有丰富的短期数据来启动长期推理能力。我们的方法将简单问题合成为复杂的、任意长度的多步依赖链。我们使用只有结果奖励的课程对模型在这些数据上进行训练,该课程会自动增加复杂性,使RL训练能够进一步扩展而不会饱和。在实证方面,我们的方法具有非常好的泛化能力:对组成的六年级水平数学问题(GSM8K)进行课程培训,将长期、竞赛级别基准(GSM-Symbolic、MATH-500、AIME)的准确性提高了最多2.06倍。重要的是,我们的长期改进甚至在高pass@k时也比基线显著更高,表明模型可以在RL下学习新的推理路径。从理论上讲,我们展示了具有结果奖励的课程RL在样本复杂性上实现了指数级的改进,提供了与密集监督相媲美的训练信号。因此,h1引入了一种仅使用现有数据来扩展RL解决长期问题的高效路径。
更新时间: 2025-10-08 17:58:41
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:42 , Processed in 0.085762 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表