SecInfer：通过推理时间缩放防止提示注入

于红博 · 发表于 2025-9-30 19:32:43

摘要: 快速注入攻击对大型语言模型（LLMs）的安全构成普遍威胁。目前最先进的基于预防的防御通常依赖于对LLM进行微调以增强其安全性，但它们在面对强攻击时效果有限。在这项工作中，我们提出了一种新颖的防御方法SecInfer，该方法针对快速注入攻击，建立在推理时缩放的基础上，这是一种通过在推理过程中分配更多计算资源来增强LLM能力的新兴范式。SecInfer包括两个关键步骤：系统提示引导抽样，通过探索多样的推理路径，通过多个系统提示生成给定输入的多个响应；目标任务引导聚合，选择最有可能完成预期任务的响应。大量实验表明，通过利用推理过程中的额外计算资源，SecInfer有效地减轻了现有和适应性快速注入攻击，表现优于最先进的防御方法以及现有的推理时缩放方法。

更新时间: 2025-09-29 16:00:41

领域: cs.CR,cs.AI

下载: http://arxiv.org/abs/2509.24967v1

		自动登录	找回密码
密码			立即注册