找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 35|回复: 0

从标记级因果镜头理解视觉语言组合性的困难

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 20:00:40 | 显示全部楼层 |阅读模式
摘要: 对比语言-图像预训练(CLIP)通过将图像和文本在共享的嵌入空间中对齐,实现了强大的跨模态泛化,但它在对象、属性和关系的组合推理方面持续失败,通常表现得像一个词袋匹配器。先前的因果解释通常将文本建模为单个向量,遮蔽了标记级结构,未能解释核心现象-如提示敏感性和在难度较大的负例上的失败。我们通过基于顺序的、语言标记SCM的标记感知因果表示学习(CRL)框架来解决这一差距。我们的理论将块可辨识性扩展到标记化文本,证明了在句子级和标记级SCM下,CLIP的对比目标可以恢复模态不变潜变量。至关重要的是,标记粒度提供了CLIP组合脆弱性的第一个原理解释:组合非可辨识性。我们展示了存在着伪最优文本编码器,它们可以实现完美的模态不变对齐,但在原子概念上的SWAP、REPLACE和ADD操作中被证明不敏感,因此无法区分正确的标题和难题负例,尽管它们优化了与真正最优编码器相同的训练目标。分析进一步将语言端的非可辨识性与视觉端的失败联系起来,通过模态差距展示迭代组合操作符如何增加难度,促进改进的负例挖掘策略。
更新时间: 2025-10-30 09:41:21
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 22:57 , Processed in 0.075277 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表