基于形式化推动的LLM提示越狱方法通过强化学习

于红博 · 发表于 2025-9-30 19:39:44

摘要: 大型语言模型(LLMs)展示了卓越的能力，但也引入了新的安全挑战。例如，提示越狱攻击涉及对手精心制作复杂的提示，以引导LLMs产生偏离人类价值观的响应。为了揭示LLM对齐方法中的漏洞，我们提出了PASS框架（通过语义和结构形式化进行提示越狱）。具体而言，PASS利用强化学习将初始越狱提示转化为形式化描述，增强了隐蔽性并使得绕过现有对齐防御变得可能。然后，越狱输出被结构化成一个GraphRAG系统，通过利用提取的相关术语和形式化符号作为上下文输入，加强了后续攻击并促进了更有效的越狱。我们在常见的开源模型上进行了广泛的实验，展示了我们攻击的有效性。

更新时间: 2025-09-28 01:38:00

领域: cs.AI,cs.CR

下载: http://arxiv.org/abs/2509.23558v1

		自动登录	找回密码
密码			立即注册