黑盒LLM的有效和高效越狱：跨行为攻击

于红博 · 发表于 2026-1-4 23:24:35

摘要: 尽管最近大型语言模型（LLMs）及其对齐方面取得了进展，它们仍然可能被越狱，即可能从中提取有害和有毒内容。虽然现有的红队测试方法显示出揭示此类漏洞的潜力，但这些方法在取得成功和计算成本方面存在困难。为了解决这个问题，我们提出了一种具有跨行为攻击的黑盒越狱方法（JCB），可以自动高效地找到成功的越狱提示。JCB利用过去行为的成功来帮助越狱新行为，从而显著提高攻击效率。此外，JCB不依赖于需要耗时和/或成本昂贵的辅助LLMs来发现/优化越狱提示，使其具有高效性和可扩展性。全面的实验评估表明，JCB明显优于相关基准线，需要的查询次数少至94%，同时仍实现了12.9%更高的平均攻击成功率。JCB还在Llama-2-7B上取得了显著高达37%的攻击成功率，这是最具弹性的LLMs之一，并显示出在不同LLMs之间具有很高的零射波传递性。

更新时间: 2025-12-31 01:02:36

领域: cs.CR,cs.AI,cs.CL

下载: http://arxiv.org/abs/2503.08990v2

		自动登录	找回密码
密码			立即注册

黑盒LLM的有效和高效越狱：跨行为攻击

浏览过的版块