|
摘要: 奖励模型(RMs)在将大型语言模型(LLMs)与人类偏好对齐中发挥关键作用。然而,在工具学习领域,缺乏专门针对函数调用任务设计的RMs限制了朝着更具能力的智能AI的进展。我们引入了ToolRM,这是一系列针对通用工具使用场景量身定制的轻量级生成性RMs。为了构建这些模型,我们提出了一种新颖的流程,使用基于规则的评分和多维抽样构建成对偏好数据。这产生了ToolPref-Pairwise-30K,一个多样化、平衡且具有挑战性的批评任务数据集,支持具有可验证反馈的强化学习。为了评估工具使用RMs,我们还引入了TRBench$_{BFCL}$,这是建立在智能评估套件BFCL上的基准测试。在我们构建的数据上训练的Qwen3-4B/8B系列模型实现了高达14.28%的更高准确性,明显优于Claude 4和OpenAI o3等前沿模型在成对奖励判断方面。除了训练目标外,ToolRM在更广泛的批评任务中也具有普适性,包括最佳N抽样和自我校正。在ACEBench上的实验突显了其有效性和效率,支持推断时间扩展并将输出标记使用量减少了超过66%。我们发布数据和模型检查点以促进未来研究。 更新时间: 2025-10-30 06:08:27 领域: cs.AI,cs.CL
|