重新思考用于计算高效的测试时间缩放的最佳验证粒度

于红博 · 发表于 2025-11-2 18:56:09

摘要: 测试时间缩放（TTS）已被证明在增强大语言模型（LLMs）的推理能力方面是有效的。验证在TTS中起着关键作用，同时影响着（1）推理性能和（2）计算效率，这是由于验证的质量和计算成本。在这项工作中，我们挑战了验证的传统范式，并首次尝试系统地研究验证粒度的影响，即在生成过程中验证器被调用的频率如何，而不仅仅验证最终输出或单个生成步骤。为此，我们引入了可变粒度搜索（VG-Search），这是一个统一的算法，通过可调粒度参数g泛化了波束搜索和最佳n采样。在不同的计算预算、生成器-验证器配置和任务属性下进行的广泛实验表明，动态选择g可以提高计算效率和扩展行为。基于这些发现，我们提出了自适应VG-Search策略，可以比波束搜索提高最高3.1\%的准确率，比最佳n提高最高3.6\%，同时减少52\%以上的FLOPs。我们将开源代码以支持未来研究。

更新时间: 2025-10-30 13:52:37

领域: cs.AI,cs.LG

下载: http://arxiv.org/abs/2505.11730v2

		自动登录	找回密码
密码			立即注册