|
摘要: 多模态大型语言模型(MLLMs)在数学推理方面取得了令人印象深刻的表现,但它们仍然容易产生视觉幻觉和逻辑矛盾,标准的基于结果的监督无法缓解这一问题。虽然过程奖励模型(PRMs)承诺逐步验证,但目前的方法通常作为标量评分者或生成性评论者,容易受谄媚之风影响,盲目验证错误的假设,而不是将其基于视觉现实。为了弥合这一差距,我们引入TIM-PRM(工具集成多模态PRM),这是一个新颖的主动框架,将验证从被动的分类任务转变为主动的、工具增强的调查。TIM-PRM被训练为明确规划验证策略,并利用独立问题询问机制通过外部工具查询证据,有效地将验证与推理背景分离,消除确认偏见。我们通过构建一个高质量的工具集成验证轨迹数据集来实现这种方法。在VisualProcessBench上进行了大量实验,结果表明我们的8B参数模型超越了现有的开源多模态PRMs,明显优于更大的模型如Qwen2.5-72B和InternVL-78B,同时提供了对验证过程的可解释见解。 更新时间: 2025-12-31 04:41:18 领域: cs.AI
|