找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 34|回复: 0

BhashaBench V1:印度语言领域的全面基准测试

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:57:14 | 显示全部楼层 |阅读模式
摘要: 大型语言模型(LLMs)的快速发展加剧了对领域和文化特定评估的需求。现有的基准主要以英语为中心,与领域无关,限制了它们在印度中心环境中的适用性。为了填补这一空白,我们推出了BhashaBench V1,这是第一个专注于印度知识体系的关键领域特定、多任务、双语基准。BhashaBench V1包含74,166个精心策划的问题-答案对,其中52,494个用英语,21,672个用印地语,这些都是从真实的政府和领域特定考试中获取的。它涵盖了农业、法律、金融和阿育吠陀等四个主要领域,包括90多个子领域,涵盖500多个主题,实现了细粒度评估。对29个以上的LLMs进行评估显示出显著的领域和语言特定的性能差距,特别是在低资源领域存在较大的差距。例如,GPT-4o在法律领域的整体准确率达到76.49%,但在阿育吠陀领域只有59.74%。模型在所有领域中对英文内容的表现普遍优于印地语。子领域级别的分析显示,如网络法律、国际金融表现相对较好,而五大净法、种子科学和人权则明显较弱。BhashaBench V1为跨越印度各种知识领域评估大型语言模型提供了全面的数据集。它使评估模型整合领域特定知识与双语理解能力成为可能。所有代码、基准和资源都是公开可用以支持开放研究。
更新时间: 2025-10-30 10:48:05
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 16:03 , Processed in 0.078235 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表