从注射到防御：为大型语言模型构建基于编辑的指纹

于红博 · 发表于 2025-10-9 16:34:34

摘要: 指纹技术对于维护可追溯性和保护开发者的知识产权（IP）至关重要，因为部署在Web应用程序中的LLMs容易受到未经授权的重新分发和滥用，通过微调或黑盒部署。然而，当前基于后门的指纹识别方法面临一个根本性的折衷：嵌入为混乱文本的指纹容易被检测和过滤，而那些精心制作为连贯自然语言的指纹则容易被意外触发。为了克服这些限制，我们提出了RFEdit，一个知识编辑框架，通过修改模型权重的稀疏子集来嵌入基于规则的多语言自然语言指纹（MNLF）。这种方法能够在LLMs中有效且稳健地注入指纹，对不相关知识的影响最小。我们的RFEdit框架进一步通过指纹子空间感知微调（FSFT）进行保护，通过限制参数更新到指纹子空间来减轻在合法微调过程中指纹退化的影响。这种方法在提升LLMs下游任务性能的同时保持指纹完整性。这些进展建立了从指纹注入到防御的全面流水线，实现高检测效果、抗对抗操纵、对模型效用无害以及在微调过程中持久性。大量实验证明，RFEdit在量化和修剪下保持稳健性。此外，与FSFT结合应用于数学和羊驼下游任务时，指纹效果通常提高超过10％。

更新时间: 2025-10-08 16:23:32

领域: cs.CL,cs.AI,cs.LG

下载: http://arxiv.org/abs/2509.03122v2

		自动登录	找回密码
密码			立即注册