标题: BOTS：LLM强化微调中贝叶斯在线任务选择的统一框架

于红博 · 发表于 2025-11-2 19:54:35

摘要: 强化微调（RFT）是将大型语言模型（LLMs）与人类偏好对齐并增强推理能力的关键技术，然而其有效性对训练过程中探索的任务非常敏感。均匀任务抽样效率低下，浪费计算资源于要么是微不足道的任务，要么是无法解决的任务，而现有的任务选择方法往往受到高昂的展开成本、适应性差或证据不完整的影响。我们引入了\textbf{BOTS}，这是一个统一的框架，用于LLM强化微调中的\textbf{B}ayesian\textbf{O}nline\textbf{T}ask\textbf{S}election。基于贝叶斯推理，BOTS根据模型的演变自适应地维护任务难度的后验估计。它同时结合了来自所选任务的直接评估的\emph{显性证据}和对未选任务的这些评估所推断的\emph{隐性证据}，利用汤普森采样确保探索和开发之间的原则平衡。为了使隐性证据实用，我们使用一种基于超轻的插值插件来实例化它，该插件估计未评估任务的难度而无需额外展开，增加的开销可以忽略不计。实证结果表明，在各种领域和LLM规模下，BOTS始终比基线和消融方法提高了数据效率和性能，为RFT中动态任务选择提供了一个实用且可扩展的解决方案。

更新时间: 2025-10-30 11:15:23

领域: cs.AI

下载: http://arxiv.org/abs/2510.26374v1

		自动登录	找回密码
密码			立即注册