找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 21|回复: 0

MUG-Eval:用于任何语言的多语言生成能力代理评估框架

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:42:46 | 显示全部楼层 |阅读模式
摘要: 评估大型语言模型(LLMs)的文本生成能力是具有挑战性的,特别是对于资源稀缺的语言,直接评估方法很少。我们提出了MUG-Eval,这是一个新颖的框架,通过将现有基准转化为对话任务来评估LLMs的多语言生成能力,并测量LLMs在这些任务上的准确性。我们特别设计了这些对话任务,要求在目标语言中进行有效的沟通。然后,我们简单地将任务成功率作为成功生成对话的代理。我们的方法具有两个关键优势:它独立于特定语言的自然语言处理工具或标注数据集,这对大多数语言来说是有限的,而且它不依赖于LLMs作为评判者,其评估质量在少数高资源语言之外会下降。我们评估了30种语言跨高、中、低资源类别的8种LLMs,并发现MUG-Eval与已建立的基准呈强相关($r$ > 0.75),同时实现了跨语言和模型的标准化比较。我们的框架为评估多语言生成提供了稳健且资源高效的解决方案,可以扩展到数千种语言。
更新时间: 2025-09-19 14:26:02
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:17 , Processed in 0.085326 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表