MUG-Eval：用于任何语言的多语言生成能力代理评估框架

于红博 · 发表于 2025-9-22 19:42:46

摘要: 评估大型语言模型（LLMs）的文本生成能力是具有挑战性的，特别是对于资源稀缺的语言，直接评估方法很少。我们提出了MUG-Eval，这是一个新颖的框架，通过将现有基准转化为对话任务来评估LLMs的多语言生成能力，并测量LLMs在这些任务上的准确性。我们特别设计了这些对话任务，要求在目标语言中进行有效的沟通。然后，我们简单地将任务成功率作为成功生成对话的代理。我们的方法具有两个关键优势：它独立于特定语言的自然语言处理工具或标注数据集，这对大多数语言来说是有限的，而且它不依赖于LLMs作为评判者，其评估质量在少数高资源语言之外会下降。我们评估了30种语言跨高、中、低资源类别的8种LLMs，并发现MUG-Eval与已建立的基准呈强相关（$r$ > 0.75），同时实现了跨语言和模型的标准化比较。我们的框架为评估多语言生成提供了稳健且资源高效的解决方案，可以扩展到数千种语言。

更新时间: 2025-09-19 14:26:02

领域: cs.CL,cs.AI

下载: http://arxiv.org/abs/2505.14395v2

		自动登录	找回密码
密码			立即注册