Chain-of-Thought Hijacking 的翻译是“思维链劫持”

于红博 · 发表于 2025-11-2 19:09:27

摘要: 大型推理模型（LRMs）通过分配更多推理时间计算来实现更高的任务性能，并且先前的研究表明，这种扩展推理也可能通过改善拒绝来增强安全性。然而，我们发现相反的情况：相同的推理可以被用来绕过安全防护措施。我们介绍了一种名为Chain-of-Thought Hijacking的对推理模型的越狱攻击。该攻击使用长序列的无害谜题推理来填充有害请求。在HarmBench中，CoT Hijacking分别在Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini和Claude 4 Sonnet上达到了99％、94％、100％和94％的攻击成功率（ASR）- 远远超过先前针对LRMs的越狱方法。为了了解我们的攻击的有效性，我们进行了机械分析，结果显示中间层编码了安全检查的强度，而后期层编码了验证结果。长期的良性CoT通过将注意力从有害令牌转移开来来稀释这两个信号。通过对此分析确定的注意力头的有针对性消融导致了拒绝的下降，证实了它们在安全子网络中的作用。这些结果表明，最可解释的推理形式 - 明确的CoT - 当与最终答案提示结合时，本身也可以成为一个越狱向量。我们发布提示、输出和评判决定，以便促进复制。

更新时间: 2025-10-30 12:10:03

领域: cs.AI

下载: http://arxiv.org/abs/2510.26418v1

		自动登录	找回密码
密码			立即注册