找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 23|回复: 0

基于形式化推动的LLM提示越狱方法通过强化学习

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:39:44 | 显示全部楼层 |阅读模式
摘要: 大型语言模型(LLMs)展示了卓越的能力,但也引入了新的安全挑战。例如,提示越狱攻击涉及对手精心制作复杂的提示,以引导LLMs产生偏离人类价值观的响应。为了揭示LLM对齐方法中的漏洞,我们提出了PASS框架(通过语义和结构形式化进行提示越狱)。具体而言,PASS利用强化学习将初始越狱提示转化为形式化描述,增强了隐蔽性并使得绕过现有对齐防御变得可能。然后,越狱输出被结构化成一个GraphRAG系统,通过利用提取的相关术语和形式化符号作为上下文输入,加强了后续攻击并促进了更有效的越狱。我们在常见的开源模型上进行了广泛的实验,展示了我们攻击的有效性。
更新时间: 2025-09-28 01:38:00
领域: cs.AI,cs.CR

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:22 , Processed in 0.075788 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表