找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 26|回复: 0

LLMs可以弥补视觉表征的不足

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:39:30 | 显示全部楼层 |阅读模式
摘要: 许多证明在各种多模式任务中非常有效的视觉语言模型(VLMs)都建立在基于CLIP的视觉编码器之上,而这些编码器已知存在各种限制。我们研究了一个假设,即VLMs中强大的语言骨干通过对可能弱视觉特征进行上下文化或丰富化来进行补偿。通过在精心设计的探测任务上对三个基于CLIP的VLMs进行受控的自我注意力消融,我们的发现表明,尽管已知存在限制,CLIP视觉表示提供了可供语言解码器直接阅读的语义信息。然而,在视觉表示中减少上下文化的情况下,语言解码器可以在很大程度上弥补不足并恢复性能。这表明VLMs中存在一种动态的分工,并激励未来的架构将更多的视觉处理转移给语言解码器。
更新时间: 2025-09-19 15:33:50
领域: cs.CV,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:16 , Processed in 0.077301 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表