找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 14|回复: 0

通过成对比较在线获取评分标准

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-10-9 16:32:45 | 显示全部楼层 |阅读模式
摘要: Rubrics提供了一种灵活的方式来训练LLMs进行开放式长篇回答,其中可验证的奖励不适用,人类偏好提供粗糙的信号。先前的研究表明,基于标尺的强化学习可以带来LLM训练后的持续增益。大多数现有方法依赖于在训练过程中保持不变的标尺。然而,这种静态标尺容易受到奖励黑客行为的影响,无法捕捉训练过程中出现的新兴期望。我们引入了在线标尺引导(OnlineRubrics)方法,通过对当前和参考策略的响应进行成对比较,在线动态地策划评估标准。这种在线过程使得在训练过程中能够持续识别和缓解错误。从经验上看,与仅使用静态标尺进行训练相比,这种方法在AlpacaEval、GPQA、ArenaHard以及专家问题和标尺的验证集上可以实现高达8%的持续改进。我们从质性上分析了引出的标准,并确定了突出的主题,如透明度、实用性、组织性和推理。
更新时间: 2025-10-08 17:44:59
领域: cs.CL,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.072703 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表