找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 19|回复: 0

MT-RewardTree: 通过奖励建模推动基于LLM的机器翻译的综合框架

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 20:01:22 | 显示全部楼层 |阅读模式
摘要: 奖励过程模型(PRMs)已经在大型语言模型(LLMs)的复杂推理任务中取得成功。然而,由于缺乏系统方法和评估基准,它们在机器翻译(MT)中的应用尚未得到充分探索。为填补这一空白,我们引入了MT-RewardTree,这是一个全面的框架,用于构建、评估和部署机器翻译中的过程奖励模型。与传统的简单偏好对构造不同,我们提出了一种新颖的方法,通过使用近似蒙特卡洛树搜索(MCTS)自动生成标记级别的偏好对,从而减轻了人工注释的高成本。然后,我们建立了第一个机器翻译特定的奖励模型基准,并对不同奖励建模架构进行系统比较,揭示了标记级别的监督有效地捕捉了精细的偏好。实验结果表明,我们的MT-PRM-Qwen-2.5-3B在给定相同输入前缀的情况下,不仅在标记级别评估中取得了最先进的性能,而且在序列级别评估中也取得了最先进的性能。此外,我们展示了奖励过程模型在LLMs的测试时间对齐和假设集成中的实际应用,而无需额外的对齐训练,并且显著提高了性能。我们的工作为机器翻译研究中奖励模型的作用提供了宝贵的见解。我们的代码和数据发布在https://sabijun.github.io/MT_RewardTreePage
更新时间: 2025-09-19 08:49:13
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 11:03 , Processed in 0.075725 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表