找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 18|回复: 0

HiPhO:M)LLMs在最新的高中物理奥林匹克基准测试中与人类相距多远?

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:37:34 | 显示全部楼层 |阅读模式
摘要: 最近,(M)LLMs的物理能力引起了越来越多的关注。然而,现有的物理基准存在两个主要缺口:它们既没有提供对真实世界物理竞赛(如物理奥林匹克竞赛)的系统和最新覆盖,也不允许直接与人类进行性能比较。为了弥补这些缺口,我们提出了HiPhO,这是第一个专门针对高中物理奥林匹克竞赛的基准,具有与人类对齐的评估。具体而言,HiPhO突出了三个关键创新点。(1)全面数据:它编制了从2024年至2025年的13个最新奥林匹克考试,涵盖国际和区域比赛,涵盖了从仅文本到基于图表的问题的混合模态。(2)专业评估:我们采用官方评分方案,在答案和步骤级别进行细粒度评分,与人类考官完全对齐,以确保高质量和领域特定评估。(3)与人类选手的比较:我们根据官方奖牌门槛向模型分配金牌、银牌和铜牌,从而实现(M)LLMs和人类选手之间的直接比较。我们对30个最先进的(M)LLMs进行了大规模评估,结果显示:在13个考试中,开源MLLMs大多保持在铜牌水平或以下;开源LLMs显示出有希望的进展,获得多个金牌;封闭式推理MLLMs可以获得6至12个金牌;大多数模型仍然与满分存在显著差距。这些结果突出了开源模型与顶尖学生之间的性能差距,封闭式模型强大的推理能力,以及仍有改进空间。HiPhO是一个与人类对齐的奥林匹克基准,用于多模态物理推理,开源地址为https://github.com/SciYu/HiPhO,具有公开排行榜https://phyarena.github.io/
更新时间: 2025-09-19 16:18:35
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:14 , Processed in 0.075686 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表