找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 38|回复: 0

AMO-Bench: 大型语言模型在高中数学竞赛中仍然面临困难

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:26:22 | 显示全部楼层 |阅读模式
摘要: 我们提出了AMO-Bench,这是一个具有奥林匹克级别甚至更高难度的高级数学推理基准,包括50个人工设计的问题。现有的基准广泛利用高中数学竞赛来评估大型语言模型(LLMs)的数学推理能力。然而,许多现有的数学竞赛由于表现饱和(例如AIME24/25),对评估顶尖LLMs的效果越来越差。为了解决这个问题,AMO-Bench通过确保所有50个问题经过专家交叉验证,至少达到国际数学奥林匹克竞赛(IMO)的难度标准,并且完全原创问题,以防止数据记忆泄漏,引入了更严格的挑战。此外,AMO-Bench中的每个问题只需要一个最终答案而不是证明,从而实现自动和稳健的评分。在AMO-Bench上对26个LLMs的实验结果显示,即使表现最佳的模型在AMO-Bench上的准确率也仅为52.4%,大多数LLMs的得分低于40%。除了这些糟糕的表现,我们的进一步分析揭示了AMO-Bench上测试时间计算增加的有希望的扩展趋势。这些结果突显了当前LLMs数学推理改进的重大空间。我们发布AMO-Bench以促进进一步研究推进语言模型的推理能力。
更新时间: 2025-10-30 17:52:02
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:39 , Processed in 0.084911 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表