找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 3|回复: 0

Zoomer:针对黑盒MLLM的自适应图像焦点优化

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:06:10 | 显示全部楼层 |阅读模式
摘要: 多模态大型语言模型(MLLMs)如GPT-4o、Gemini Pro和Claude 3.5已实现了对文本和视觉输入的统一推理,但在现实世界场景中往往会出现幻觉,尤其是涉及小物体或细微空间背景时。我们确定了这种失败的两个核心原因:缺乏区域自适应注意力和强制统一下采样的不灵活的令牌预算,导致关键信息丢失。为了克服这些限制,我们引入了Zoomer,一个视觉提示框架,为黑匣子MLLMs提供了令牌高效、保留细节的图像表示。Zoomer集成了(1)一个提示感知强调模块,以突出语义相关区域,(2)一个保持对象关系的空间保持编排模式,以及(3)一种预算感知策略,以在全局上下文和本地细节之间自适应地分配令牌。对九种基准和三种商业MLLMs进行的大量实验表明,Zoomer将准确性提高了高达27%,同时将图像令牌使用量减少了高达67%。我们的方法建立了一种基于原则的方法论,用于在模型内部不可访问的情况下实现鲁棒的、资源感知的多模态理解。
更新时间: 2025-12-31 10:38:36
领域: cs.CV,cs.AI,eess.IV

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:00 , Processed in 0.080873 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表