|
摘要: 数字水印技术使GenAI提供商能够验证内容是否由他们的模型生成。水印是内容中的隐藏信号,其存在可以使用秘密水印密钥来检测。核心安全威胁是伪造攻击,对手将提供商的水印插入到\emph{不是}由提供商生成的内容中,可能损害他们的声誉并破坏信任。现有的防御措施通过将多个水印与多个密钥嵌入到同一内容中来抵御伪造,但这可能会降低模型效用。然而,当攻击者可以收集足够多的带水印样本时,伪造仍然是一种威胁。我们提出了一种防御方案,可以证明抵御伪造攻击是\emph{独立}于攻击者收集的带水印内容数量的,只要他们不能轻易区分不同密钥的水印。我们的方案不会进一步降低模型效用。我们为每个查询随机选择水印密钥,并仅在\emph{确切}一个密钥检测到水印时才接受内容为真实。我们专注于图像和文本模态,但我们的防御是模态不可知的,因为它将基础水印方法视为黑盒。我们的方法可以证明限制了攻击者的成功率,并且我们在经验上观察到成功率从接近完美的成功率降低到仅为$2\%$且计算开销微乎其微。 更新时间: 2025-09-27 07:12:29 领域: cs.CR,cs.AI,cs.LG
|