通过成对比较在线获取评分标准

于红博 · 发表于 2025-10-9 16:32:45

摘要: Rubrics提供了一种灵活的方式来训练LLMs进行开放式长篇回答，其中可验证的奖励不适用，人类偏好提供粗糙的信号。先前的研究表明，基于标尺的强化学习可以带来LLM训练后的持续增益。大多数现有方法依赖于在训练过程中保持不变的标尺。然而，这种静态标尺容易受到奖励黑客行为的影响，无法捕捉训练过程中出现的新兴期望。我们引入了在线标尺引导（OnlineRubrics）方法，通过对当前和参考策略的响应进行成对比较，在线动态地策划评估标准。这种在线过程使得在训练过程中能够持续识别和缓解错误。从经验上看，与仅使用静态标尺进行训练相比，这种方法在AlpacaEval、GPQA、ArenaHard以及专家问题和标尺的验证集上可以实现高达8%的持续改进。我们从质性上分析了引出的标准，并确定了突出的主题，如透明度、实用性、组织性和推理。

更新时间: 2025-10-08 17:44:59

领域: cs.CL,cs.AI,cs.LG

下载: http://arxiv.org/abs/2510.07284v1

		自动登录	找回密码
密码			立即注册