找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 20|回复: 0

SecInfer:通过推理时间缩放防止提示注入

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:32:43 | 显示全部楼层 |阅读模式
摘要: 快速注入攻击对大型语言模型(LLMs)的安全构成普遍威胁。目前最先进的基于预防的防御通常依赖于对LLM进行微调以增强其安全性,但它们在面对强攻击时效果有限。在这项工作中,我们提出了一种新颖的防御方法SecInfer,该方法针对快速注入攻击,建立在推理时缩放的基础上,这是一种通过在推理过程中分配更多计算资源来增强LLM能力的新兴范式。SecInfer包括两个关键步骤:系统提示引导抽样,通过探索多样的推理路径,通过多个系统提示生成给定输入的多个响应;目标任务引导聚合,选择最有可能完成预期任务的响应。大量实验表明,通过利用推理过程中的额外计算资源,SecInfer有效地减轻了现有和适应性快速注入攻击,表现优于最先进的防御方法以及现有的推理时缩放方法。
更新时间: 2025-09-29 16:00:41
领域: cs.CR,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:24 , Processed in 0.073298 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表