|
摘要: 人类认知被理论化为运行在两种模式下:快速,直觉的系统1思维和缓慢,深思熟虑的系统2思维。虽然当前的大型推理模型(LRMs)擅长系统2思维,但它们无法执行快速思考导致高计算开销和延迟。在这项工作中,我们通过动态思考速度调整,使LRMs能够近似人类智能,优化准确性和效率的权衡。我们的方法解决了两个关键问题:(1)如何控制LRMs中的思考速度,以及(2)何时调整以获得最佳性能。对于第一个问题,我们确定了在LRMs表示空间中控制快速-缓慢思考转换的控制向量。利用这个向量,我们实现了第一个基于表示编辑的测试时间缩放效果,优于现有的基于提示的缩放方法。对于第二个问题,我们应用实时难度估计来信号不同复杂性的推理段。结合这些技术,我们提出了第一个推理策略,可以快速处理简单步骤并对复杂推理进行更深入的分析。在没有任何训练或额外成本的情况下,我们的插件模块在领先的LRMs和先进的推理基准上交付了平均+1.3%的准确率,使用的令牌减少了-8.6%。我们所有的算法都是基于vLLM实现的,预计将支持更广泛的应用,并激发未来的研究。 更新时间: 2025-10-30 17:13:35 领域: cs.CL,cs.AI
|