|
摘要: 人类反馈强化学习(RLHF)通过从人类偏好数据中学习奖励模型,然后优化策略以偏好首选响应的方式,已成为使大型语言模型(LLMs)与人类偏好相一致的中心范式。在本文中,我们研究在线RLHF的探索原则,其中一个人试图以数据高效的方式自适应地收集新的偏好数据以精化奖励模型和策略。通过检查现有的基于乐观主义的探索算法,我们发现了其采样协议中的一个缺点:它们倾向于收集未能减少奖励差异中最具信息价值的不确定性的比较,并且我们证明了这种方法可能会在指数长的时间范围内产生线性后悔。受到这一观点的启发,我们提出了一个新的探索方案,该方案将偏好查询引导到减少与策略改进最相关的奖励差异的不确定性。在RLHF的多臂老虎机模型下,我们建立了$T^{(\beta+1)/(\beta+2)}$阶的后悔界限,其中$\beta>0$是一个超参数,平衡奖励最大化与缓解分布转移。据我们所知,这是第一个后悔按所有模型参数多项式缩放的在线RLHF算法。 更新时间: 2025-09-26 17:57:17 领域: stat.ML,cs.AI,cs.CL,cs.LG,math.ST,stat.TH
|