Chain-of-Scrutiny: 检测大型语言模型的后门攻击

于红博 · 发表于 2025-11-2 22:07:34

摘要: 大型语言模型（LLMs），特别是通过API访问的模型，在各个领域展示出了令人印象深刻的能力。然而，缺乏技术专长的用户通常会转向（不可信的）第三方服务，例如提示工程，以增强他们对LLM的体验，从而对后门攻击等敌对威胁产生了漏洞。受后门威胁影响的LLMs在输入包含攻击者设置的特定“触发器”时会向用户生成恶意输出。传统的防御策略，最初设计用于小规模模型，对于可通过API访问的LLMs来说是不切实际的，因为模型访问受限，计算成本高，数据需求大。为了解决这些限制，我们提出了Chain-of-Scrutiny（CoS），利用LLMs独特的推理能力来减轻后门攻击。它引导LLM为给定输入生成推理步骤，并审查最终输出的一致性--任何不一致性都可能表明潜在攻击。它非常适合流行的仅API部署的LLM，可以以最低成本和少量数据进行检测。友好且以自然语言驱动，使非专业人士能够独立进行防御，并保持透明度。我们通过对各种任务和LLMs的广泛实验验证了CoS的有效性，结果显示对于更强大的LLMs有更大的益处。

更新时间: 2025-10-30 03:11:28

领域: cs.CR,cs.AI

下载: http://arxiv.org/abs/2406.05948v4

		自动登录	找回密码
密码			立即注册