BitHydra：针对大型语言模型的位翻转推理成本攻击

于红博 · 发表于 2025-9-30 19:34:40

摘要: 大型语言模型（LLMs）被广泛部署，但其不断增长的计算需求使它们容易受到推理成本攻击，这些攻击最大化输出长度。我们揭示了先前的攻击基本上是自我定位的，因为它们依赖于精心制作的输入，因此额外的成本会累积到攻击者自己的查询上，并在实践中缩放效果不佳。在这项工作中，我们介绍了第一个比特翻转推理成本攻击，直接修改模型权重以诱发对所有使用受损LLM的用户产生持续的开销。这种攻击在实践中既隐蔽又现实：例如，在共享的MLaaS环境中，共存的租户可以利用硬件级别的故障（例如Rowhammer）来翻转存储模型参数的内存位。我们用BitHydra来实例化这种攻击范式，它（1）最小化一个抑制结束序列标记（即EOS）的损失，并且（2）采用一个既高效又有效的关键位搜索，集中在EOS嵌入向量上，大大减少了搜索空间，同时保留了看起来良性的输出。我们在int8和float16下评估了11个LLMs（1.5B-14B），证明我们的方法仅需少量比特翻转就能有效实现可伸缩的成本膨胀，同时甚至对潜在的防御措施也有效。

更新时间: 2025-09-29 04:08:08

领域: cs.CR,cs.AI

下载: http://arxiv.org/abs/2505.16670v3

		自动登录	找回密码
密码			立即注册

BitHydra：针对大型语言模型的位翻转推理成本攻击

浏览过的版块