BhashaBench V1：印度语言领域的全面基准测试

于红博 · 发表于 2025-11-2 19:57:14

摘要: 大型语言模型（LLMs）的快速发展加剧了对领域和文化特定评估的需求。现有的基准主要以英语为中心，与领域无关，限制了它们在印度中心环境中的适用性。为了填补这一空白，我们推出了BhashaBench V1，这是第一个专注于印度知识体系的关键领域特定、多任务、双语基准。BhashaBench V1包含74,166个精心策划的问题-答案对，其中52,494个用英语，21,672个用印地语，这些都是从真实的政府和领域特定考试中获取的。它涵盖了农业、法律、金融和阿育吠陀等四个主要领域，包括90多个子领域，涵盖500多个主题，实现了细粒度评估。对29个以上的LLMs进行评估显示出显著的领域和语言特定的性能差距，特别是在低资源领域存在较大的差距。例如，GPT-4o在法律领域的整体准确率达到76.49%，但在阿育吠陀领域只有59.74%。模型在所有领域中对英文内容的表现普遍优于印地语。子领域级别的分析显示，如网络法律、国际金融表现相对较好，而五大净法、种子科学和人权则明显较弱。BhashaBench V1为跨越印度各种知识领域评估大型语言模型提供了全面的数据集。它使评估模型整合领域特定知识与双语理解能力成为可能。所有代码、基准和资源都是公开可用以支持开放研究。

更新时间: 2025-10-30 10:48:05

领域: cs.CL,cs.AI

下载: http://arxiv.org/abs/2510.25409v2

		自动登录	找回密码
密码			立即注册

BhashaBench V1：印度语言领域的全面基准测试

浏览过的版块