摘要: 最近语言模型的进展在各种基准测试中显著改善了数学推理。然而,大多数基准测试依赖于自动评估方法,这些方法仅使用启发式方法比较最终答案,而不验证潜在的推理步骤。这种限制导致了假阳性解决方案,即模型可能产生正确的最终答案,但推理路径存在缺陷。在本文中,我们系统地检查了语言模型在数学问题解决中假阳性解决方案的普遍性。我们分析了这个问题在不同的开源模型、不同难度级别的数据集和解码策略中的特征和程度。具体地,我们探讨了假阳性如何影响语言模型的推理时间扩展行为。我们的实验结果表明:(1) 假阳性解决方案在不同的模型、数据集和解码方法中持续存在,(2) 基于采样的推理时间扩展方法并不能缓解问题,(3) pass@N 评估指标更容易受到假阳性的影响,暗示着与自动评估所指示的相比,其扩展上限明显较低。此外,我们分析了具体的假阳性实例,并讨论了在这种情况下自我改进技术和合成数据生成的潜在局限性。我们的数据和代码公开在 https://github.com/Wloner0809/False-Positives-in-Math。 更新时间: 2025-09-18 12:31:12 领域: cs.CL,cs.AI
|