找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 40|回复: 0

Scales ++:使用认知尺度嵌入进行计算高效评估子集选择

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:53:46 | 显示全部楼层 |阅读模式
摘要: 大规模语言模型(LLMs)在全面基准测试中评估的高昂成本需要创建小而代表性的数据子集(即微小基准测试),以便在保留预测准确性的同时实现高效评估。目前针对此任务的方法在模型中心范式下运作,根据现有模型的集体性能选择基准测试项目。这种方法受到大量前期成本、无法立即处理新基准测试(“冷启动”)以及未来模型将共享其前任的失败模式的脆弱假设的限制。在这项工作中,我们挑战这种范式,并提出一种基于项目的基准子集选择方法,认为选择应基于任务项目本身的固有属性,而不是基于模型特定的失败模式。我们通过一种新颖方法Scales++ 实例化了这种基于项目的高效基准测试方法,其中数据选择基于基准样本的认知需求。经验上,我们展示了Scales++ 将前期选择成本降低了18倍以上,同时实现了竞争性预测准确性。在Open LLM排行榜上,仅使用0.5\%的数据子集,我们以2.9%的平均绝对误差预测完整的基准分数。我们证明这种基于项目的方法实现了更高效的模型评估,而不会显著降低准确性,同时提供更好的冷启动性能和更可解释的基准测试。
更新时间: 2025-10-30 11:28:58
领域: cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 18:33 , Processed in 0.088226 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表