|
|
摘要: 多模态大型语言模型具有各种实际应用,需要强大的推理能力。尽管最近取得了进展,但这些模型仍然难以解决复杂的几何问题。一个关键挑战源于缺乏用于理解几何图像的高质量图像文本配对数据集。此外,大多数基于模板的数据合成流程通常无法推广到超出其预定义模板的问题。在本文中,我们通过将可验证奖励的强化学习(RLVR)过程引入数据生成流程来弥合这一差距。通过采用RLVR来优化从50种基本几何关系合成的几何图像的标题,并使用从数学问题求解任务中导出的奖励信号,我们的流程成功捕捉了几何问题解决的关键特征。这使任务泛化得更好,并产生了非平凡的改进。此外,即使在分布之外的场景中,生成的数据集也提高了多模态大型语言模型的一般推理能力,在MathVista和MathVerse的非几何输入图像中,统计、算术、代数和数值任务的准确性提高了$2.8\%\text{-}4.8\%$,同时在MMMU的艺术、设计、技术和工程任务中提高了$2.4\%\text{-}3.9\%$。
更新时间: 2025-09-18 17:59:11
领域: cs.AI,cs.CV,cs.LG
下载: http://arxiv.org/abs/2509.15217v1 |
|