摘要: 大型视觉-语言模型(VLMs)在多模态理解方面取得了显著进展,但在处理信息密集的图像时仍然存在困难,这些图像将文本注释与细粒度图形元素密集地交织在一起。主要挑战在于精确定位密集布局中的关键线索,并进行多跳推理以整合分散的证据。我们提出了Speculative Verdict(SV),这是一个无需训练的框架,受到推测解码的启发,将多个轻量级草稿专家与一个大型裁决模型相结合。在草稿阶段,小型VLMs充当草稿专家,生成提供多样化定位候选项的推理路径;在裁决阶段,强大的VLM综合这些路径,产生最终答案,同时最大限度地减少计算成本,同时恢复正确答案。为了进一步提高效率和准确性,SV引入了一种共识专家选择机制,仅将高一致性的推理路径转发给裁决。在具有挑战性的信息密集和高分辨率视觉问答基准上,包括InfographicVQA、ChartMuseum、ChartQAPro和HR-Bench 4K,SV在经验上取得了持续的收益。通过从多个部分准确的推理路径中综合正确的见解,SV相比于大型专有模型或训练流程,既实现了错误校正又实现了成本效率。代码可在https://github.com/Tinaliu0123/speculative-verdict上获得。 更新时间: 2025-10-23 17:59:21 领域: cs.CV,cs.AI,cs.CL
|