摘要: 使用人类反馈的强化学习(RLHF)和具有可验证奖励的强化学习(RLVR)是LLM后训练中使用的主要RL范例,每个都具有独特优势。然而,RLHF在解释性和奖励欺骗方面存在困难,因为它依赖于通常缺乏明确标准的人类判断,而RLVR在范围上受限于其专注于基于正确性的验证器。我们提出了具有二进制灵活反馈的强化学习(RLBFF),它结合了人类驱动的偏好的多样性和基于规则的验证的精确性,使奖励模型能够捕捉超越纯粹正确性的响应质量的微妙方面。RLBFF从自然语言反馈中提取可以以二进制方式回答的原则(例如,信息准确性:是,或代码可读性:否)。这些原则可以用于将奖励模型的训练作为一个蕴涵任务(响应是否符合任意原则)。我们展示了以这种方式训练的奖励模型可以在匹配数据时胜过Bradley-Terry模型,并在RM-Bench(86.2%)和JudgeBench(81.4%,截至2025年9月24日排行榜第一)上取得最佳表现。此外,用户可以在推理时指定感兴趣的原则,以自定义我们奖励模型的焦点,与Bradley-Terry模型相比。最后,我们提供了一个完全开源的配方(包括数据),使用RLBFF和我们的奖励模型对齐Qwen3-32B,以匹配或超越o3-mini和DeepSeek R1在MT-Bench,WildBench和Arena Hard v2的通用对齐基准上的性能(推理成本的<5%)。模型链接:https://huggingface.co/collections/nvidia/reward-models-10-2025 更新时间: 2025-10-30 17:09:54 领域: cs.CL,cs.AI,cs.LG
|