激活空间干预可以在大型语言模型之间转移

于红博 · 发表于 2025-9-22 19:57:06

摘要: 在人工智能模型中研究表示普适性揭示了跨领域、模态和架构的日益趋同。然而，表示普适性的实际应用仍然被大部分忽视。我们通过展示安全干预可以通过学习它们共享的激活空间的映射在模型之间进行转移来弥合这一差距。我们在两个已建立的人工智能安全任务上展示了这种方法：后门删除和拒绝有害提示，展示了能够改变模型输出的操纵向量成功地转移。此外，我们提出了一个新任务，“受损能力”，在这个任务中，模型被微调以嵌入与后门相关的知识。这测试了它们分离有用技能和后门的能力，反映了现实世界的挑战。在Llama、Qwen和Gemma模型系列上进行的大量实验表明，我们的方法使得可以使用较小的模型有效地对齐较大的模型。此外，我们展示了基础模型和微调模型之间的自编码器映射可以作为可靠的“轻量级安全开关”，允许在模型行为之间进行动态切换。

更新时间: 2025-09-19 11:03:59

领域: cs.AI

下载: http://arxiv.org/abs/2503.04429v4

		自动登录	找回密码
密码			立即注册

激活空间干预可以在大型语言模型之间转移

浏览过的版块