找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 19|回复: 0

通过张量分解的强大视觉-语言模型:对抗性攻击的防御

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 16:27:10 | 显示全部楼层 |阅读模式
摘要: 视觉语言模型(VLMs)在多模态理解方面表现出色,但容易受到对抗攻击。现有的防御方法往往需要昂贵的重新训练或重大的架构变化。我们引入了一种轻量级的防御方法,使用张量分解适用于任何预训练的VLM,无需重新训练。通过分解和重建视觉编码器表示,它可以过滤对抗性噪音同时保留含义。在COCO和Flickr30K上对CLIP进行的实验表明,提高了鲁棒性。在Flickr30K上,它恢复了12.3\%的性能损失,将Recall@1准确率从7.5\%提高到19.8\%。在COCO上,它恢复了8.1\%的性能,将准确率从3.8\%提高到11.9\%。分析显示,低秩(8-32)和低残差强度($\alpha=0.1-0.2$)的张量列分解是最佳的。这种方法是一个实用的即插即用解决方案,对现有的VLMs几乎没有额外开销。
更新时间: 2025-09-19 17:16:32
领域: cs.CV,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:18 , Processed in 0.071319 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表