LLMs可以弥补视觉表征的不足

于红博 · 发表于 2025-9-22 19:39:30

摘要: 许多证明在各种多模式任务中非常有效的视觉语言模型（VLMs）都建立在基于CLIP的视觉编码器之上，而这些编码器已知存在各种限制。我们研究了一个假设，即VLMs中强大的语言骨干通过对可能弱视觉特征进行上下文化或丰富化来进行补偿。通过在精心设计的探测任务上对三个基于CLIP的VLMs进行受控的自我注意力消融，我们的发现表明，尽管已知存在限制，CLIP视觉表示提供了可供语言解码器直接阅读的语义信息。然而，在视觉表示中减少上下文化的情况下，语言解码器可以在很大程度上弥补不足并恢复性能。这表明VLMs中存在一种动态的分工，并激励未来的架构将更多的视觉处理转移给语言解码器。

更新时间: 2025-09-19 15:33:50

领域: cs.CV,cs.AI,cs.CL

下载: http://arxiv.org/abs/2506.05439v2

		自动登录	找回密码
密码			立即注册