|
摘要: 我们提出了AMO-Bench,这是一个具有奥林匹克级别甚至更高难度的高级数学推理基准,包括50个人工设计的问题。现有的基准广泛利用高中数学竞赛来评估大型语言模型(LLMs)的数学推理能力。然而,许多现有的数学竞赛由于表现饱和(例如AIME24/25),对评估顶尖LLMs的效果越来越差。为了解决这个问题,AMO-Bench通过确保所有50个问题经过专家交叉验证,至少达到国际数学奥林匹克竞赛(IMO)的难度标准,并且完全原创问题,以防止数据记忆泄漏,引入了更严格的挑战。此外,AMO-Bench中的每个问题只需要一个最终答案而不是证明,从而实现自动和稳健的评分。在AMO-Bench上对26个LLMs的实验结果显示,即使表现最佳的模型在AMO-Bench上的准确率也仅为52.4%,大多数LLMs的得分低于40%。除了这些糟糕的表现,我们的进一步分析揭示了AMO-Bench上测试时间计算增加的有希望的扩展趋势。这些结果突显了当前LLMs数学推理改进的重大空间。我们发布AMO-Bench以促进进一步研究推进语言模型的推理能力。 更新时间: 2025-10-30 17:52:02 领域: cs.CL,cs.AI
|