找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 18|回复: 0

最佳-of-L:跨语言奖励建模用于数学推理

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:59:08 | 显示全部楼层 |阅读模式
摘要: 尽管大型语言模型(LLMs)的推理能力不断提升,但跨语言LLMs的这种能力如何在不同语言之间变化,以及不同语言是否产生相互补充的推理路径仍不清楚。为了调查这个问题,我们训练了一个奖励模型,用于对不同语言生成的回答进行排名。我们的结果表明,我们的跨语言奖励模型在数学推理性能方面较单一语言内奖励建模有显著提升,甚至有益于高资源语言。尽管英语在多语言模型中通常表现最佳,我们发现在低采样预算下,跨语言抽样尤其有益于英语。我们的发现揭示了通过利用不同语言的互补优势来改进多语言推理的新机会。
更新时间: 2025-09-19 09:38:54
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:14 , Processed in 0.078812 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表