|
摘要: 大型推理模型(LRMs)通过分配更多推理时间计算来实现更高的任务性能,并且先前的研究表明,这种扩展推理也可能通过改善拒绝来增强安全性。然而,我们发现相反的情况:相同的推理可以被用来绕过安全防护措施。我们介绍了一种名为Chain-of-Thought Hijacking的对推理模型的越狱攻击。该攻击使用长序列的无害谜题推理来填充有害请求。在HarmBench中,CoT Hijacking分别在Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini和Claude 4 Sonnet上达到了99%、94%、100%和94%的攻击成功率(ASR)- 远远超过先前针对LRMs的越狱方法。为了了解我们的攻击的有效性,我们进行了机械分析,结果显示中间层编码了安全检查的强度,而后期层编码了验证结果。长期的良性CoT通过将注意力从有害令牌转移开来来稀释这两个信号。通过对此分析确定的注意力头的有针对性消融导致了拒绝的下降,证实了它们在安全子网络中的作用。这些结果表明,最可解释的推理形式 - 明确的CoT - 当与最终答案提示结合时,本身也可以成为一个越狱向量。我们发布提示、输出和评判决定,以便促进复制。 更新时间: 2025-10-30 12:10:03 领域: cs.AI
|