多模型模型中文本和图像之间不对齐的安全风险

于红博 · 发表于 2025-11-2 22:02:43

摘要: 尽管多模态扩散模型，如文本到图像模型，取得了显著进展并展现了多样性，但它们对对抗性输入的敏感性仍未得到充分探讨。与预期相反，我们的研究表明，现有扩散模型中文本和图像模态之间的对齐是不足的。这种不对齐尤其在生成不当或不适宜的内容时存在重大风险，特别是在生成不安全内容时。为此，我们提出了一种名为Prompt-Restricted Multi-modal Attack（PReMA）的新型攻击，通过修改输入图像和任何指定提示来操纵生成的内容，而不改变提示本身。PReMA是第一个仅通过创建对抗性图像来操纵模型输出的攻击，与先前主要生成对抗性提示以产生不安全内容的方法有所不同。因此，PReMA对多模态扩散模型的完整性构成了新的威胁，特别是在固定提示下运行的图像编辑应用中。对各种模型在图像修补和风格转移任务上进行的综合评估证实了PReMA的有效性。

更新时间: 2025-10-30 03:31:20

领域: cs.CV,cs.AI,cs.CR

下载: http://arxiv.org/abs/2510.26105v1

		自动登录	找回密码
密码			立即注册