找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 37|回复: 0

RLBFF:二进制灵活反馈,以弥合人类反馈和可验证奖励之间的差距

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:43:33 | 显示全部楼层 |阅读模式
摘要: 使用人类反馈的强化学习(RLHF)和具有可验证奖励的强化学习(RLVR)是LLM后训练中使用的主要RL范例,每个都具有独特优势。然而,RLHF在解释性和奖励欺骗方面存在困难,因为它依赖于通常缺乏明确标准的人类判断,而RLVR在范围上受限于其专注于基于正确性的验证器。我们提出了具有二进制灵活反馈的强化学习(RLBFF),它结合了人类驱动的偏好的多样性和基于规则的验证的精确性,使奖励模型能够捕捉超越纯粹正确性的响应质量的微妙方面。RLBFF从自然语言反馈中提取可以以二进制方式回答的原则(例如,信息准确性:是,或代码可读性:否)。这些原则可以用于将奖励模型的训练作为一个蕴涵任务(响应是否符合任意原则)。我们展示了以这种方式训练的奖励模型可以在匹配数据时胜过Bradley-Terry模型,并在RM-Bench(86.2%)和JudgeBench(81.4%,截至2025年9月24日排行榜第一)上取得最佳表现。此外,用户可以在推理时指定感兴趣的原则,以自定义我们奖励模型的焦点,与Bradley-Terry模型相比。最后,我们提供了一个完全开源的配方(包括数据),使用RLBFF和我们的奖励模型对齐Qwen3-32B,以匹配或超越o3-mini和DeepSeek R1在MT-Bench,WildBench和Arena Hard v2的通用对齐基准上的性能(推理成本的<5%)。模型链接:https://huggingface.co/collections/nvidia/reward-models-10-2025
更新时间: 2025-10-30 17:09:54
领域: cs.CL,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:56 , Processed in 0.087700 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表