|
摘要: 多模态大型语言模型(MLLMs)如GPT-4o、Gemini Pro和Claude 3.5已实现了对文本和视觉输入的统一推理,但在现实世界场景中往往会出现幻觉,尤其是涉及小物体或细微空间背景时。我们确定了这种失败的两个核心原因:缺乏区域自适应注意力和强制统一下采样的不灵活的令牌预算,导致关键信息丢失。为了克服这些限制,我们引入了Zoomer,一个视觉提示框架,为黑匣子MLLMs提供了令牌高效、保留细节的图像表示。Zoomer集成了(1)一个提示感知强调模块,以突出语义相关区域,(2)一个保持对象关系的空间保持编排模式,以及(3)一种预算感知策略,以在全局上下文和本地细节之间自适应地分配令牌。对九种基准和三种商业MLLMs进行的大量实验表明,Zoomer将准确性提高了高达27%,同时将图像令牌使用量减少了高达67%。我们的方法建立了一种基于原则的方法论,用于在模型内部不可访问的情况下实现鲁棒的、资源感知的多模态理解。 更新时间: 2025-12-31 10:38:36 领域: cs.CV,cs.AI,eess.IV
|