找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4|回复: 0

Encyclo-K: 用动态组合的知识语句评估LLMs

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:01:32 | 显示全部楼层 |阅读模式
摘要: 基准测试在追踪大型语言模型(LLMs)的快速进展和确定其能力边界方面发挥着关键作用。然而,现有的基准测试主要在问题级别策划问题,存在三个基本限制:容易受到数据污染的影响,限制为单一知识点评估,以及依赖昂贵的领域专家注释。我们提出了Encyclo-K,这是一个基于语句的基准测试,从根本上重新构思基准测试的构建。我们的关键洞察是,知识语句而不是问题可以作为策划的单元,然后可以从中构建问题。我们从权威教科书中提取独立的知识语句,并通过在测试时进行随机抽样动态地将它们组合成评估问题。这种设计直接解决了所有三个限制:组合空间太过广阔,无法记忆,模型排名在动态生成的问题集中保持稳定,从而实现可靠的周期性数据集更新;每个问题汇总了8-10个语句,进行全面的多知识评估;注释者只需验证格式是否符合要求,而不需要领域专业知识,大大降低了注释成本。对50多个LLMs进行的实验表明,Encyclo-K提出了具有强大区分能力的重大挑战。即使是表现最好的OpenAI-GPT-5.1也只能达到62.07%的准确率,而模型的性能显示出明显的梯度分布--推理模型的范围从16.04%到62.07%,而聊天模型的范围从9.71%到50.40%。这些结果验证了动态评估和多语句综合理解所引入的挑战。这些发现将Encyclo-K确立为一个可扩展的框架,用于动态评估LLMs对多个精细领域知识语句的全面理解。
更新时间: 2025-12-31 13:55:54
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:01 , Processed in 0.097457 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表