|
摘要: 大型语言模型(LLMs)被广泛部署,但其不断增长的计算需求使它们容易受到推理成本攻击,这些攻击最大化输出长度。我们揭示了先前的攻击基本上是自我定位的,因为它们依赖于精心制作的输入,因此额外的成本会累积到攻击者自己的查询上,并在实践中缩放效果不佳。在这项工作中,我们介绍了第一个比特翻转推理成本攻击,直接修改模型权重以诱发对所有使用受损LLM的用户产生持续的开销。这种攻击在实践中既隐蔽又现实:例如,在共享的MLaaS环境中,共存的租户可以利用硬件级别的故障(例如Rowhammer)来翻转存储模型参数的内存位。我们用BitHydra来实例化这种攻击范式,它(1)最小化一个抑制结束序列标记(即EOS)的损失,并且(2)采用一个既高效又有效的关键位搜索,集中在EOS嵌入向量上,大大减少了搜索空间,同时保留了看起来良性的输出。我们在int8和float16下评估了11个LLMs(1.5B-14B),证明我们的方法仅需少量比特翻转就能有效实现可伸缩的成本膨胀,同时甚至对潜在的防御措施也有效。 更新时间: 2025-09-29 04:08:08 领域: cs.CR,cs.AI
|