控制推理模型中的思维速度

于红博 · 发表于 2025-11-2 18:43:11

摘要: 人类认知被理论化为运行在两种模式下：快速，直觉的系统1思维和缓慢，深思熟虑的系统2思维。虽然当前的大型推理模型（LRMs）擅长系统2思维，但它们无法执行快速思考导致高计算开销和延迟。在这项工作中，我们通过动态思考速度调整，使LRMs能够近似人类智能，优化准确性和效率的权衡。我们的方法解决了两个关键问题：（1）如何控制LRMs中的思考速度，以及（2）何时调整以获得最佳性能。对于第一个问题，我们确定了在LRMs表示空间中控制快速-缓慢思考转换的控制向量。利用这个向量，我们实现了第一个基于表示编辑的测试时间缩放效果，优于现有的基于提示的缩放方法。对于第二个问题，我们应用实时难度估计来信号不同复杂性的推理段。结合这些技术，我们提出了第一个推理策略，可以快速处理简单步骤并对复杂推理进行更深入的分析。在没有任何训练或额外成本的情况下，我们的插件模块在领先的LRMs和先进的推理基准上交付了平均+1.3%的准确率，使用的令牌减少了-8.6%。我们所有的算法都是基于vLLM实现的，预计将支持更广泛的应用，并激发未来的研究。

更新时间: 2025-10-30 17:13:35

领域: cs.CL,cs.AI

下载: http://arxiv.org/abs/2507.03704v2

		自动登录	找回密码
密码			立即注册