找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 24|回复: 0

CapRL:通过强化学习激发密集图像字幕能力

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:45:11 | 显示全部楼层 |阅读模式
摘要: 图像字幕是一个连接视觉和语言领域的基本任务,对于预训练大型视觉语言模型(LVLMs)起着至关重要的作用。目前最先进的字幕模型通常通过监督微调(SFT)进行训练,这是一种依赖于昂贵、不可扩展的由人类或专有模型注释的数据的范式。这种方法通常导致模型记忆特定的地面真实答案,限制了它们的普适性和生成多样化、创造性描述的能力。为了克服SFT的限制,我们提出将可验证奖励的强化学习(RLVR)范式应用于开放式任务图像字幕生成中。然而,一个主要挑战是设计一个客观的奖励函数,用于确定什么构成了一个“好”的字幕的固有主观性质。我们引入了Captioning Reinforcement Learning(CapRL),这是一个重新定义字幕质量的新型训练框架:一个高质量的字幕应该使非视觉语言模型能够准确地回答有关对应图像的问题。CapRL采用了一个分离的两阶段流水线,其中一个LVLM生成一个字幕,而客观奖励来自一个独立的、无视觉的LLM仅基于该字幕回答多项选择问题的准确性。作为第一项将RLVR应用于主观图像字幕任务的研究,我们证明CapRL在多个设置中显著增强。在由CapRL-3B注释的CapRL-5M字幕数据集上进行预训练,在12个基准测试中取得了显著的增益。此外,在Prism框架中对字幕质量进行评估,CapRL的性能与Qwen2.5-VL-72B相当,超过基准线的平均幅度为8.4%。代码可在此处获得:https://github.com/InternLM/CapRL
更新时间: 2025-09-26 17:59:55
领域: cs.CV,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:14 , Processed in 0.068371 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表