|
摘要: 强化微调(RFT)是将大型语言模型(LLMs)与人类偏好对齐并增强推理能力的关键技术,然而其有效性对训练过程中探索的任务非常敏感。均匀任务抽样效率低下,浪费计算资源于要么是微不足道的任务,要么是无法解决的任务,而现有的任务选择方法往往受到高昂的展开成本、适应性差或证据不完整的影响。我们引入了\textbf{BOTS},这是一个统一的框架,用于LLM强化微调中的\textbf{B}ayesian\textbf{O}nline\textbf{T}ask\textbf{S}election。基于贝叶斯推理,BOTS根据模型的演变自适应地维护任务难度的后验估计。它同时结合了来自所选任务的直接评估的\emph{显性证据}和对未选任务的这些评估所推断的\emph{隐性证据},利用汤普森采样确保探索和开发之间的原则平衡。为了使隐性证据实用,我们使用一种基于超轻的插值插件来实例化它,该插件估计未评估任务的难度而无需额外展开,增加的开销可以忽略不计。实证结果表明,在各种领域和LLM规模下,BOTS始终比基线和消融方法提高了数据效率和性能,为RFT中动态任务选择提供了一个实用且可扩展的解决方案。 更新时间: 2025-10-30 11:15:23 领域: cs.AI
|