找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 37|回复: 0

Chain-of-Thought Hijacking 的翻译是“思维链劫持”

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:09:27 | 显示全部楼层 |阅读模式
摘要: 大型推理模型(LRMs)通过分配更多推理时间计算来实现更高的任务性能,并且先前的研究表明,这种扩展推理也可能通过改善拒绝来增强安全性。然而,我们发现相反的情况:相同的推理可以被用来绕过安全防护措施。我们介绍了一种名为Chain-of-Thought Hijacking的对推理模型的越狱攻击。该攻击使用长序列的无害谜题推理来填充有害请求。在HarmBench中,CoT Hijacking分别在Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini和Claude 4 Sonnet上达到了99%、94%、100%和94%的攻击成功率(ASR)- 远远超过先前针对LRMs的越狱方法。为了了解我们的攻击的有效性,我们进行了机械分析,结果显示中间层编码了安全检查的强度,而后期层编码了验证结果。长期的良性CoT通过将注意力从有害令牌转移开来来稀释这两个信号。通过对此分析确定的注意力头的有针对性消融导致了拒绝的下降,证实了它们在安全子网络中的作用。这些结果表明,最可解释的推理形式 - 明确的CoT - 当与最终答案提示结合时,本身也可以成为一个越狱向量。我们发布提示、输出和评判决定,以便促进复制。
更新时间: 2025-10-30 12:10:03
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 18:32 , Processed in 0.072526 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表