找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4|回复: 0

大型推理模型是好的翻译评估器吗?分析和性能提升

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 3 天前 | 显示全部楼层 |阅读模式
摘要: 最近大型推理模型(LRMs)的最新进展引入了在生成最终答案之前的中间“思考”过程,提高了它们在复杂下游任务上的推理能力。然而,LRMs作为机器翻译(MT)质量评估器的潜力仍未得到充分挖掘。我们提供了对LRM作为评判者在MT评估中的首次系统分析。我们确定了关键挑战,揭示LRMs需要定制评估材料,倾向于“过度思考”简单情况,并存在评分机制问题导致过高评分。为了解决这些问题,我们提出通过训练LRM在合成的、类似人类思考轨迹上进行思考来校准LRM的思考。我们在WMT24度量基准上的实验表明,这种方法大大减少了思考预算约35倍,同时在不同LRM规模(例如,从7B到32B)上提高了评估性能(例如,R1-Distill-Qwen-7B实现了+8.7的相关点改进)。这些发现突显了高效校准的LRM推动细粒度自动MT评估的潜力。
更新时间: 2025-10-23 17:48:36
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 11:03 , Processed in 0.074172 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表