找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 45|回复: 0

标题: BOTS:LLM强化微调中贝叶斯在线任务选择的统一框架

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:54:35 | 显示全部楼层 |阅读模式
摘要: 强化微调(RFT)是将大型语言模型(LLMs)与人类偏好对齐并增强推理能力的关键技术,然而其有效性对训练过程中探索的任务非常敏感。均匀任务抽样效率低下,浪费计算资源于要么是微不足道的任务,要么是无法解决的任务,而现有的任务选择方法往往受到高昂的展开成本、适应性差或证据不完整的影响。我们引入了\textbf{BOTS},这是一个统一的框架,用于LLM强化微调中的\textbf{B}ayesian\textbf{O}nline\textbf{T}ask\textbf{S}election。基于贝叶斯推理,BOTS根据模型的演变自适应地维护任务难度的后验估计。它同时结合了来自所选任务的直接评估的\emph{显性证据}和对未选任务的这些评估所推断的\emph{隐性证据},利用汤普森采样确保探索和开发之间的原则平衡。为了使隐性证据实用,我们使用一种基于超轻的插值插件来实例化它,该插件估计未评估任务的难度而无需额外展开,增加的开销可以忽略不计。实证结果表明,在各种领域和LLM规模下,BOTS始终比基线和消融方法提高了数据效率和性能,为RFT中动态任务选择提供了一个实用且可扩展的解决方案。
更新时间: 2025-10-30 11:15:23
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 18:34 , Processed in 0.070028 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表