找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 29|回复: 0

朝向有效的在线探索:通过人类反馈进行强化学习

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:49:07 | 显示全部楼层 |阅读模式
摘要: 人类反馈强化学习(RLHF)通过从人类偏好数据中学习奖励模型,然后优化策略以偏好首选响应的方式,已成为使大型语言模型(LLMs)与人类偏好相一致的中心范式。在本文中,我们研究在线RLHF的探索原则,其中一个人试图以数据高效的方式自适应地收集新的偏好数据以精化奖励模型和策略。通过检查现有的基于乐观主义的探索算法,我们发现了其采样协议中的一个缺点:它们倾向于收集未能减少奖励差异中最具信息价值的不确定性的比较,并且我们证明了这种方法可能会在指数长的时间范围内产生线性后悔。受到这一观点的启发,我们提出了一个新的探索方案,该方案将偏好查询引导到减少与策略改进最相关的奖励差异的不确定性。在RLHF的多臂老虎机模型下,我们建立了$T^{(\beta+1)/(\beta+2)}$阶的后悔界限,其中$\beta>0$是一个超参数,平衡奖励最大化与缓解分布转移。据我们所知,这是第一个后悔按所有模型参数多项式缩放的在线RLHF算法。
更新时间: 2025-09-26 17:57:17
领域: stat.ML,cs.AI,cs.CL,cs.LG,math.ST,stat.TH

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:24 , Processed in 0.076697 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表