|
摘要: 对比语言-图像预训练(CLIP)通过将图像和文本在共享的嵌入空间中对齐,实现了强大的跨模态泛化,但它在对象、属性和关系的组合推理方面持续失败,通常表现得像一个词袋匹配器。先前的因果解释通常将文本建模为单个向量,遮蔽了标记级结构,未能解释核心现象-如提示敏感性和在难度较大的负例上的失败。我们通过基于顺序的、语言标记SCM的标记感知因果表示学习(CRL)框架来解决这一差距。我们的理论将块可辨识性扩展到标记化文本,证明了在句子级和标记级SCM下,CLIP的对比目标可以恢复模态不变潜变量。至关重要的是,标记粒度提供了CLIP组合脆弱性的第一个原理解释:组合非可辨识性。我们展示了存在着伪最优文本编码器,它们可以实现完美的模态不变对齐,但在原子概念上的SWAP、REPLACE和ADD操作中被证明不敏感,因此无法区分正确的标题和难题负例,尽管它们优化了与真正最优编码器相同的训练目标。分析进一步将语言端的非可辨识性与视觉端的失败联系起来,通过模态差距展示迭代组合操作符如何增加难度,促进改进的负例挖掘策略。 更新时间: 2025-10-30 09:41:21 领域: cs.LG,cs.AI
|