摘要: 图像字幕是一个连接视觉和语言领域的基本任务,对于预训练大型视觉语言模型(LVLMs)起着至关重要的作用。目前最先进的字幕模型通常通过监督微调(SFT)进行训练,这是一种依赖于昂贵、不可扩展的由人类或专有模型注释的数据的范式。这种方法通常导致模型记忆特定的地面真实答案,限制了它们的普适性和生成多样化、创造性描述的能力。为了克服SFT的限制,我们提出将可验证奖励的强化学习(RLVR)范式应用于开放式任务图像字幕生成中。然而,一个主要挑战是设计一个客观的奖励函数,用于确定什么构成了一个“好”的字幕的固有主观性质。我们引入了Captioning Reinforcement Learning(CapRL),这是一个重新定义字幕质量的新型训练框架:一个高质量的字幕应该使非视觉语言模型能够准确地回答有关对应图像的问题。CapRL采用了一个分离的两阶段流水线,其中一个LVLM生成一个字幕,而客观奖励来自一个独立的、无视觉的LLM仅基于该字幕回答多项选择问题的准确性。作为第一项将RLVR应用于主观图像字幕任务的研究,我们证明CapRL在多个设置中显著增强。在由CapRL-3B注释的CapRL-5M字幕数据集上进行预训练,在12个基准测试中取得了显著的增益。此外,在Prism框架中对字幕质量进行评估,CapRL的性能与Qwen2.5-VL-72B相当,超过基准线的平均幅度为8.4%。代码可在此处获得:https://github.com/InternLM/CapRL。 更新时间: 2025-09-26 17:59:55 领域: cs.CV,cs.AI,cs.CL
|