找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 43|回复: 0

通过关注关键空间分析揭示多模态大语言模型中的内在文本偏见

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:28:57 | 显示全部楼层 |阅读模式
摘要: 多模式大型语言模型(MLLMs)在处理视觉-语言数据时表现出明显的偏好文本输入,限制了它们有效从视觉证据中推理的能力。与先前将这种文本偏见归因于外部因素如数据不平衡或指导调整的研究不同,我们提出这种偏见起源于模型的内部架构。具体而言,我们假设视觉关键向量(Visual Keys)相对于仅进行语言预训练时学习的文本关键空间为分布之外(OOD)。因此,在注意力计算过程中,这些视觉关键接收到较低的相似性得分,导致它们在上下文表示中被低效利用。为了验证这一假设,我们从LLaVA和Qwen2.5-VL中提取关键向量,并使用定性(t-SNE)和定量(Jensen-Shannon散度)方法分析它们的分布结构。结果直接证明,视觉和文本关键在注意力空间内占据明显不同的子空间。跨模态的差异在统计上是显著的,远远超过了内模态变异几个数量级。这些发现表明,文本偏见源于在注意力关键空间内的固有错位,而不仅仅是外部数据因素造成的。
更新时间: 2025-10-30 17:22:22
领域: cs.AI,cs.MM

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:50 , Processed in 0.076905 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表