找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 3|回复: 0

黑盒LLM的有效和高效越狱:跨行为攻击

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:24:35 | 显示全部楼层 |阅读模式
摘要: 尽管最近大型语言模型(LLMs)及其对齐方面取得了进展,它们仍然可能被越狱,即可能从中提取有害和有毒内容。虽然现有的红队测试方法显示出揭示此类漏洞的潜力,但这些方法在取得成功和计算成本方面存在困难。为了解决这个问题,我们提出了一种具有跨行为攻击的黑盒越狱方法(JCB),可以自动高效地找到成功的越狱提示。JCB利用过去行为的成功来帮助越狱新行为,从而显著提高攻击效率。此外,JCB不依赖于需要耗时和/或成本昂贵的辅助LLMs来发现/优化越狱提示,使其具有高效性和可扩展性。全面的实验评估表明,JCB明显优于相关基准线,需要的查询次数少至94%,同时仍实现了12.9%更高的平均攻击成功率。JCB还在Llama-2-7B上取得了显著高达37%的攻击成功率,这是最具弹性的LLMs之一,并显示出在不同LLMs之间具有很高的零射波传递性。
更新时间: 2025-12-31 01:02:36
领域: cs.CR,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 16:01 , Processed in 0.090815 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表