找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 6|回复: 0

大视觉语言模型推理的快慢思维GRPO

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 3 天前 | 显示全部楼层 |阅读模式
摘要: 将强化学习应用于大型视觉语言模型推理时,通常通过GRPO,推理难以有效地扩展推理长度,或者在所有任务中生成冗长的输出,仅在准确性方面获得边际增益。为了解决这个问题,我们提出了FAST-GRPO,这是GRPO的一个变种,根据问题特征动态调整推理深度。通过实证分析,我们建立了在LVLMs中快速慢速思考的可行性,研究了响应长度和数据分布如何影响性能。受到这些观察的启发,我们引入了两个互补的度量,用于估计问题的难度,引导模型确定何时更适合快速或慢速思考。接下来,我们将自适应长度奖励和难度感知KL散度纳入GRPO算法中。在七个推理基准测试中进行的实验表明,FAST实现了与基础模型相比超过10%的相对改进的最新准确性,同时将令牌使用量与之前的慢速思考方法相比减少了32.7-67.3%,有效平衡了推理长度和准确性。
更新时间: 2025-10-23 16:25:28
领域: cs.CL,cs.AI,cs.CV

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 03:57 , Processed in 0.066442 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表