AMO-Bench: 大型语言模型在高中数学竞赛中仍然面临困难

于红博 · 发表于 2025-11-2 18:26:22

摘要: 我们提出了AMO-Bench，这是一个具有奥林匹克级别甚至更高难度的高级数学推理基准，包括50个人工设计的问题。现有的基准广泛利用高中数学竞赛来评估大型语言模型（LLMs）的数学推理能力。然而，许多现有的数学竞赛由于表现饱和（例如AIME24/25），对评估顶尖LLMs的效果越来越差。为了解决这个问题，AMO-Bench通过确保所有50个问题经过专家交叉验证，至少达到国际数学奥林匹克竞赛（IMO）的难度标准，并且完全原创问题，以防止数据记忆泄漏，引入了更严格的挑战。此外，AMO-Bench中的每个问题只需要一个最终答案而不是证明，从而实现自动和稳健的评分。在AMO-Bench上对26个LLMs的实验结果显示，即使表现最佳的模型在AMO-Bench上的准确率也仅为52.4%，大多数LLMs的得分低于40%。除了这些糟糕的表现，我们的进一步分析揭示了AMO-Bench上测试时间计算增加的有希望的扩展趋势。这些结果突显了当前LLMs数学推理改进的重大空间。我们发布AMO-Bench以促进进一步研究推进语言模型的推理能力。

更新时间: 2025-10-30 17:52:02

领域: cs.CL,cs.AI

下载: http://arxiv.org/abs/2510.26768v1

		自动登录	找回密码
密码			立即注册