找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 3|回复: 0

小草案,大裁决:通过推测进行信息密集的视觉推理

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 3 天前 | 显示全部楼层 |阅读模式
摘要: 大型视觉-语言模型(VLMs)在多模态理解方面取得了显著进展,但在处理信息密集的图像时仍然存在困难,这些图像将文本注释与细粒度图形元素密集地交织在一起。主要挑战在于精确定位密集布局中的关键线索,并进行多跳推理以整合分散的证据。我们提出了Speculative Verdict(SV),这是一个无需训练的框架,受到推测解码的启发,将多个轻量级草稿专家与一个大型裁决模型相结合。在草稿阶段,小型VLMs充当草稿专家,生成提供多样化定位候选项的推理路径;在裁决阶段,强大的VLM综合这些路径,产生最终答案,同时最大限度地减少计算成本,同时恢复正确答案。为了进一步提高效率和准确性,SV引入了一种共识专家选择机制,仅将高一致性的推理路径转发给裁决。在具有挑战性的信息密集和高分辨率视觉问答基准上,包括InfographicVQA、ChartMuseum、ChartQAPro和HR-Bench 4K,SV在经验上取得了持续的收益。通过从多个部分准确的推理路径中综合正确的见解,SV相比于大型专有模型或训练流程,既实现了错误校正又实现了成本效率。代码可在https://github.com/Tinaliu0123/speculative-verdict上获得。
更新时间: 2025-10-23 17:59:21
领域: cs.CV,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 11:03 , Processed in 0.076730 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表