摘要: 奖励过程模型(PRMs)已经在大型语言模型(LLMs)的复杂推理任务中取得成功。然而,由于缺乏系统方法和评估基准,它们在机器翻译(MT)中的应用尚未得到充分探索。为填补这一空白,我们引入了MT-RewardTree,这是一个全面的框架,用于构建、评估和部署机器翻译中的过程奖励模型。与传统的简单偏好对构造不同,我们提出了一种新颖的方法,通过使用近似蒙特卡洛树搜索(MCTS)自动生成标记级别的偏好对,从而减轻了人工注释的高成本。然后,我们建立了第一个机器翻译特定的奖励模型基准,并对不同奖励建模架构进行系统比较,揭示了标记级别的监督有效地捕捉了精细的偏好。实验结果表明,我们的MT-PRM-Qwen-2.5-3B在给定相同输入前缀的情况下,不仅在标记级别评估中取得了最先进的性能,而且在序列级别评估中也取得了最先进的性能。此外,我们展示了奖励过程模型在LLMs的测试时间对齐和假设集成中的实际应用,而无需额外的对齐训练,并且显著提高了性能。我们的工作为机器翻译研究中奖励模型的作用提供了宝贵的见解。我们的代码和数据发布在https://sabijun.github.io/MT_RewardTreePage。 更新时间: 2025-09-19 08:49:13 领域: cs.CL,cs.AI
|