RLBFF：二进制灵活反馈，以弥合人类反馈和可验证奖励之间的差距

于红博 · 发表于 2025-11-2 18:43:33

摘要: 使用人类反馈的强化学习（RLHF）和具有可验证奖励的强化学习（RLVR）是LLM后训练中使用的主要RL范例，每个都具有独特优势。然而，RLHF在解释性和奖励欺骗方面存在困难，因为它依赖于通常缺乏明确标准的人类判断，而RLVR在范围上受限于其专注于基于正确性的验证器。我们提出了具有二进制灵活反馈的强化学习（RLBFF），它结合了人类驱动的偏好的多样性和基于规则的验证的精确性，使奖励模型能够捕捉超越纯粹正确性的响应质量的微妙方面。RLBFF从自然语言反馈中提取可以以二进制方式回答的原则（例如，信息准确性：是，或代码可读性：否）。这些原则可以用于将奖励模型的训练作为一个蕴涵任务（响应是否符合任意原则）。我们展示了以这种方式训练的奖励模型可以在匹配数据时胜过Bradley-Terry模型，并在RM-Bench（86.2％）和JudgeBench（81.4％，截至2025年9月24日排行榜第一）上取得最佳表现。此外，用户可以在推理时指定感兴趣的原则，以自定义我们奖励模型的焦点，与Bradley-Terry模型相比。最后，我们提供了一个完全开源的配方（包括数据），使用RLBFF和我们的奖励模型对齐Qwen3-32B，以匹配或超越o3-mini和DeepSeek R1在MT-Bench，WildBench和Arena Hard v2的通用对齐基准上的性能（推理成本的<5％）。模型链接：https://huggingface.co/collections/nvidia/reward-models-10-2025

更新时间: 2025-10-30 17:09:54

领域: cs.CL,cs.AI,cs.LG

下载: http://arxiv.org/abs/2509.21319v2

		自动登录	找回密码
密码			立即注册