找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

TIM-PRM:利用工具集成的PRM验证多模态推理

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:19:40 | 显示全部楼层 |阅读模式
摘要: 多模态大型语言模型(MLLMs)在数学推理方面取得了令人印象深刻的表现,但它们仍然容易产生视觉幻觉和逻辑矛盾,标准的基于结果的监督无法缓解这一问题。虽然过程奖励模型(PRMs)承诺逐步验证,但目前的方法通常作为标量评分者或生成性评论者,容易受谄媚之风影响,盲目验证错误的假设,而不是将其基于视觉现实。为了弥合这一差距,我们引入TIM-PRM(工具集成多模态PRM),这是一个新颖的主动框架,将验证从被动的分类任务转变为主动的、工具增强的调查。TIM-PRM被训练为明确规划验证策略,并利用独立问题询问机制通过外部工具查询证据,有效地将验证与推理背景分离,消除确认偏见。我们通过构建一个高质量的工具集成验证轨迹数据集来实现这种方法。在VisualProcessBench上进行了大量实验,结果表明我们的8B参数模型超越了现有的开源多模态PRMs,明显优于更大的模型如Qwen2.5-72B和InternVL-78B,同时提供了对验证过程的可解释见解。
更新时间: 2025-12-31 04:41:18
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 14:32 , Processed in 0.083166 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表