找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 33|回复: 0

通过偏置反转实现LLM水印的规避

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:42:26 | 显示全部楼层 |阅读模式
摘要: 大语言模型(LLMs)的水印技术在生成过程中嵌入了统计信号,以便检测模型生成的文本。虽然水印技术在良性环境中证明有效,但其在对抗性规避下的鲁棒性仍存在争议。为了推进对这种漏洞的严格理解和评估,我们提出了\emph{偏倒写攻击}(BIRA),该攻击在理论上受到启发,并且与模型无关。BIRA通过在基于LLM的重写过程中抑制可能带有水印的标记的对数概率来削弱水印信号,而无需了解基础水印方案。在最近的水印方法中,BIRA实现了超过99%的规避,同时保留了原始文本的语义内容。除了展示一种攻击外,我们的结果揭示了一种系统性漏洞,强调了对压力测试和强大防御的需求。
更新时间: 2025-09-27 00:24:57
领域: cs.CR,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:23 , Processed in 0.078785 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表