大视觉语言模型推理的快慢思维GRPO

于红博 · 发表于 2025-10-27 00:28:37

摘要: 将强化学习应用于大型视觉语言模型推理时，通常通过GRPO，推理难以有效地扩展推理长度，或者在所有任务中生成冗长的输出，仅在准确性方面获得边际增益。为了解决这个问题，我们提出了FAST-GRPO，这是GRPO的一个变种，根据问题特征动态调整推理深度。通过实证分析，我们建立了在LVLMs中快速慢速思考的可行性，研究了响应长度和数据分布如何影响性能。受到这些观察的启发，我们引入了两个互补的度量，用于估计问题的难度，引导模型确定何时更适合快速或慢速思考。接下来，我们将自适应长度奖励和难度感知KL散度纳入GRPO算法中。在七个推理基准测试中进行的实验表明，FAST实现了与基础模型相比超过10％的相对改进的最新准确性，同时将令牌使用量与之前的慢速思考方法相比减少了32.7-67.3％，有效平衡了推理长度和准确性。

更新时间: 2025-10-23 16:25:28

领域: cs.CL,cs.AI,cs.CV

下载: http://arxiv.org/abs/2504.18458v2

		自动登录	找回密码
密码			立即注册