找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 14|回复: 0

研究推理缩放下的数学推理误报

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 15:13:32 | 显示全部楼层 |阅读模式
摘要: 最近语言模型的进展在各种基准测试中显著改善了数学推理。然而,大多数基准测试依赖于自动评估方法,这些方法仅使用启发式方法比较最终答案,而不验证潜在的推理步骤。这种限制导致了假阳性解决方案,即模型可能产生正确的最终答案,但推理路径存在缺陷。在本文中,我们系统地检查了语言模型在数学问题解决中假阳性解决方案的普遍性。我们分析了这个问题在不同的开源模型、不同难度级别的数据集和解码策略中的特征和程度。具体地,我们探讨了假阳性如何影响语言模型的推理时间扩展行为。我们的实验结果表明:(1) 假阳性解决方案在不同的模型、数据集和解码方法中持续存在,(2) 基于采样的推理时间扩展方法并不能缓解问题,(3) pass@N 评估指标更容易受到假阳性的影响,暗示着与自动评估所指示的相比,其扩展上限明显较低。此外,我们分析了具体的假阳性实例,并讨论了在这种情况下自我改进技术和合成数据生成的潜在局限性。我们的数据和代码公开在 https://github.com/Wloner0809/False-Positives-in-Math
更新时间: 2025-09-18 12:31:12
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:16 , Processed in 0.072181 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表