|
摘要: 大型语言模型(LLMs)的快速发展加剧了对领域和文化特定评估的需求。现有的基准主要以英语为中心,与领域无关,限制了它们在印度中心环境中的适用性。为了填补这一空白,我们推出了BhashaBench V1,这是第一个专注于印度知识体系的关键领域特定、多任务、双语基准。BhashaBench V1包含74,166个精心策划的问题-答案对,其中52,494个用英语,21,672个用印地语,这些都是从真实的政府和领域特定考试中获取的。它涵盖了农业、法律、金融和阿育吠陀等四个主要领域,包括90多个子领域,涵盖500多个主题,实现了细粒度评估。对29个以上的LLMs进行评估显示出显著的领域和语言特定的性能差距,特别是在低资源领域存在较大的差距。例如,GPT-4o在法律领域的整体准确率达到76.49%,但在阿育吠陀领域只有59.74%。模型在所有领域中对英文内容的表现普遍优于印地语。子领域级别的分析显示,如网络法律、国际金融表现相对较好,而五大净法、种子科学和人权则明显较弱。BhashaBench V1为跨越印度各种知识领域评估大型语言模型提供了全面的数据集。它使评估模型整合领域特定知识与双语理解能力成为可能。所有代码、基准和资源都是公开可用以支持开放研究。 更新时间: 2025-10-30 10:48:05 领域: cs.CL,cs.AI
|