潜在破解：通过潜在空间反馈对大型语言模型进行越狱

于红博 · 发表于 2025-11-2 18:49:09

摘要: 越狱是一种敌对攻击，旨在绕过大型语言模型的内置安全机制。自动化越狱通常会优化敌对后缀，或通过迫使模型生成受限或有害响应的初始部分，来调整长提示模板。在这项研究中，我们展示了利用这些机制解锁模型响应的现有越狱攻击可以通过对输入提示进行基于困惑度的简单过滤来检测。为了克服这个问题，我们提出了LatentBreak，一种白盒越狱攻击，它生成具有低困惑度的自然对抗提示，能够逃避这种防御。LatentBreak将输入提示中的词替换为语义等效的词，保留提示的初始意图，而不是添加高困惑度的敌对后缀或长模板。这些词是通过在敌对提示的表示和无害请求的表示之间的潜在空间中最小化距离来选择的。我们的广泛评估表明，LatentBreak会导致更短、低困惑度的提示，从而在多个与安全对齐的模型上，比竞争的基于困惑度的过滤器更好地表现出对抗越狱算法。

更新时间: 2025-10-30 15:33:58

领域: cs.CL,cs.AI,cs.LG

下载: http://arxiv.org/abs/2510.08604v2

		自动登录	找回密码
密码			立即注册