找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 48|回复: 0

自我进化的LLM推理课程

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 21:45:07 | 显示全部楼层 |阅读模式
摘要: 强化学习已被证明对于微调大型语言模型(LLMs)非常有效,显著增强了其在数学和代码生成等领域的推理能力。影响强化学习微调成功的一个关键因素是训练课程:即呈现训练问题的顺序。虽然随机课程常作为常见基线,但它们仍然不够优化;手动设计的课程往往过于依赖启发式方法,而在线过滤方法可能会造成计算上的限制。为了解决这些限制,我们提出了自进化课程(SEC),这是一种自动化课程学习方法,它与强化学习微调过程同时学习课程策略。我们的方法将课程选择视为一个非静态多臂老虎机问题,将每个问题类别(例如难度级别或问题类型)视为一个独立的臂。我们利用政策梯度方法中的绝对优势作为即时学习增益的替代度量。在每个训练步骤中,课程策略选择类别以最大化这一奖励信号,并使用TD(0)方法进行更新。在三个不同的推理领域:规划、归纳推理和数学中,我们的实验证明SEC显著提高了模型的推理能力,使其能够更好地泛化到更难的、分布外的测试问题。此外,我们的方法在同时微调多个推理领域时实现了更好的技能平衡。这些发现突显了SEC作为LLMs强化学习微调的一种有前途的策略。
更新时间: 2025-10-30 07:03:09
领域: cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 15:47 , Processed in 0.079620 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表