HiPhO：M)LLMs在最新的高中物理奥林匹克基准测试中与人类相距多远？

于红博 · 发表于 2025-9-22 19:37:34

摘要: 最近，(M)LLMs的物理能力引起了越来越多的关注。然而，现有的物理基准存在两个主要缺口：它们既没有提供对真实世界物理竞赛（如物理奥林匹克竞赛）的系统和最新覆盖，也不允许直接与人类进行性能比较。为了弥补这些缺口，我们提出了HiPhO，这是第一个专门针对高中物理奥林匹克竞赛的基准，具有与人类对齐的评估。具体而言，HiPhO突出了三个关键创新点。（1）全面数据：它编制了从2024年至2025年的13个最新奥林匹克考试，涵盖国际和区域比赛，涵盖了从仅文本到基于图表的问题的混合模态。（2）专业评估：我们采用官方评分方案，在答案和步骤级别进行细粒度评分，与人类考官完全对齐，以确保高质量和领域特定评估。（3）与人类选手的比较：我们根据官方奖牌门槛向模型分配金牌、银牌和铜牌，从而实现(M)LLMs和人类选手之间的直接比较。我们对30个最先进的(M)LLMs进行了大规模评估，结果显示：在13个考试中，开源MLLMs大多保持在铜牌水平或以下；开源LLMs显示出有希望的进展，获得多个金牌；封闭式推理MLLMs可以获得6至12个金牌；大多数模型仍然与满分存在显著差距。这些结果突出了开源模型与顶尖学生之间的性能差距，封闭式模型强大的推理能力，以及仍有改进空间。HiPhO是一个与人类对齐的奥林匹克基准，用于多模态物理推理，开源地址为https://github.com/SciYu/HiPhO，具有公开排行榜https://phyarena.github.io/。

更新时间: 2025-09-19 16:18:35

领域: cs.AI

下载: http://arxiv.org/abs/2509.07894v4

		自动登录	找回密码
密码			立即注册