找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 42|回复: 0

推理课程:从数学中引导广义LLM推理

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 21:52:37 | 显示全部楼层 |阅读模式
摘要: 强化学习(RL)可以在大型语言模型(LLMs)中引发强烈的推理,然而大多数开放性努力集中在数学和编码上。我们提出了Reasoning Curriculum,这是一个简单的两阶段课程,首先在与预训练对齐的领域(如数学)中引发推理技能,然后通过联合RL在其他领域中调整和完善这些技能。第一阶段进行简短的冷启动,然后进行仅数学的RL,以验证奖励来发展推理技能。第二阶段在混合领域数据上运行联合RL,以转移和巩固这些技能。该课程是最小的,不依赖于骨干结构,除了标准的可验证性检查之外,不需要专门的奖励模型。在Qwen3-4B和Llama-3.1-8B上评估跨多领域套件,推理课程带来了一致的收益。消融和认知技能分析表明,两个阶段都是必要的,而数学优先引发增加了解决复杂问题所必需的认知行为。Reasoning Curriculum提供了一个紧凑、易于采用的通用推理配方。
更新时间: 2025-10-30 04:56:44
领域: cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:04 , Processed in 0.073536 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表