VLA-Mark：用于大规模视觉语言对齐模型的跨模态水印

于红博 · 发表于 2025-9-22 20:04:27

摘要: 视觉语言模型需要水印解决方案，以保护知识产权而不影响多模态一致性。现有的文本水印方法通过偏向性令牌选择和静态策略破坏了视觉-文本对齐，使语义关键概念容易受到攻击。我们提出了VLA-Mark，这是一个视觉对齐框架，通过跨模态协调保留语义保真度的同时嵌入可检测的水印。我们的方法整合了多尺度视觉-文本对齐指标，结合了局部补丁亲和性、全局语义一致性和上下文关注模式，以指导水印注入而无需重新训练模型。一种熵敏感机制动态平衡水印强度和语义保留，优先考虑视觉基础在低不确定性生成阶段。实验结果显示，与传统方法相比，PPL降低了7.4%，BLEU提高了26.6%，检测几乎完美（98.8%的AUC）。该框架表现出96.1%的抵抗攻击能力，例如改写和同义词替换，同时保持文本-视觉一致性，为保持质量的多模态水印设立了新标准。

更新时间: 2025-09-19 06:54:08

领域: cs.CV,cs.AI

下载: http://arxiv.org/abs/2507.14067v2

		自动登录	找回密码
密码			立即注册

VLA-Mark：用于大规模视觉语言对齐模型的跨模态水印

浏览过的版块