小草案，大裁决：通过推测进行信息密集的视觉推理

于红博 · 发表于 2025-10-27 00:18:11

摘要: 大型视觉-语言模型（VLMs）在多模态理解方面取得了显著进展，但在处理信息密集的图像时仍然存在困难，这些图像将文本注释与细粒度图形元素密集地交织在一起。主要挑战在于精确定位密集布局中的关键线索，并进行多跳推理以整合分散的证据。我们提出了Speculative Verdict（SV），这是一个无需训练的框架，受到推测解码的启发，将多个轻量级草稿专家与一个大型裁决模型相结合。在草稿阶段，小型VLMs充当草稿专家，生成提供多样化定位候选项的推理路径；在裁决阶段，强大的VLM综合这些路径，产生最终答案，同时最大限度地减少计算成本，同时恢复正确答案。为了进一步提高效率和准确性，SV引入了一种共识专家选择机制，仅将高一致性的推理路径转发给裁决。在具有挑战性的信息密集和高分辨率视觉问答基准上，包括InfographicVQA、ChartMuseum、ChartQAPro和HR-Bench 4K，SV在经验上取得了持续的收益。通过从多个部分准确的推理路径中综合正确的见解，SV相比于大型专有模型或训练流程，既实现了错误校正又实现了成本效率。代码可在https://github.com/Tinaliu0123/speculative-verdict上获得。

更新时间: 2025-10-23 17:59:21

领域: cs.CV,cs.AI,cs.CL

下载: http://arxiv.org/abs/2510.20812v1

		自动登录	找回密码
密码			立即注册

小草案，大裁决：通过推测进行信息密集的视觉推理

浏览过的版块