通过偏置反转实现LLM水印的规避

于红博 · 发表于 2025-9-30 19:42:26

摘要: 大语言模型（LLMs）的水印技术在生成过程中嵌入了统计信号，以便检测模型生成的文本。虽然水印技术在良性环境中证明有效，但其在对抗性规避下的鲁棒性仍存在争议。为了推进对这种漏洞的严格理解和评估，我们提出了\emph{偏倒写攻击}（BIRA），该攻击在理论上受到启发，并且与模型无关。BIRA通过在基于LLM的重写过程中抑制可能带有水印的标记的对数概率来削弱水印信号，而无需了解基础水印方案。在最近的水印方法中，BIRA实现了超过99％的规避，同时保留了原始文本的语义内容。除了展示一种攻击外，我们的结果揭示了一种系统性漏洞，强调了对压力测试和强大防御的需求。

更新时间: 2025-09-27 00:24:57

领域: cs.CR,cs.AI

下载: http://arxiv.org/abs/2509.23019v1

		自动登录	找回密码
密码			立即注册

通过偏置反转实现LLM水印的规避

浏览过的版块